使用boto3和python从S3存储桶目录中仅读取特定格式的文件

RK. 发表于 Dev

RK。

在我的s3存储桶目录中，我有多个文件，例如.csv，.log，.txt等。但是我需要从单个目录中读取只读.log文件，并使用boto3附加它们。我尝试了下面的代码，但它正在读取所有文件数据，无法使用* .log进行限制，并且结果将以单行形式出现，并由“ \ n”分隔，如下所述。
我如何只读取日志文件并合并它们，结果应该逐行出现。

    import boto3
    import pandas as pd
    import csv
    
    s3 = boto3.resource('s3')
    my_bucket = s3.Bucket('my_bucket')
    
    lst = []
    for object in my_bucket.objects.filter(Prefix="bulk_data/all_files/"):
        print(object.key)
        bdy = object.get()['Body'].read().decode('utf-8')
        lst.append(bdy)
        bdy = ''
    print(lst)

这样的第一个输出以'\ n'作为分隔符。'12345,6006,7290,7200，JKHBJ，S，55 \ n44345,6996,6290,7288，JKHkk，R，57 \ n ..........'

我应该得到如下内容：

12345,6006,7290,7200，JKHBJ，S，55

44345,6996,6290,7288，JKHkk，R，57

...

马辛

该filter 只需要前缀，后缀不。因此，您必须自己过滤它，例如使用：

import boto3
import pandas as pd
import csv

s3 = boto3.resource('s3')
my_bucket = s3.Bucket('my_bucket')

lst = []
for s3obj in my_bucket.objects.filter(Prefix="attachments/"):
    
    # skip s3 objects not ending with csv
    if (not s3obj.key.endswith('csv')): continue
        
    print(s3obj.key)
    bdy = s3obj.get()['Body'].read().decode('utf-8')
    lst.append(bdy)
    bdy = ''
    
#print(lst)

for file_str in lst:
    for line in file_str.split('\n'):
        print(line)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-27

我来说两句

0 条评论

登录后参与评论

上一篇：Vue.js中的watcher不适用于道具价值

TOP 榜单

文章

使用boto3和python从S3存储桶目录中仅读取特定格式的文件

使用boto3和python从S3存储桶目录中仅读取特定格式的文件

IE 11中的FormData未定义

如何一次从多个文本框中获取值？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

OpenCv：改变 putText() 的位置

Redux动作正常，但减速器无效

如何从JavaScript中的MP3文件读取元数据属性？

如何使用Redux-Toolkit重置Redux Store

将加号/减号添加到jQuery菜单

OpenGL纹理格式的颜色错误

获取并汇总所有关联的数据

超过时间限制错误C ++

ActiveModelSerializer仅显示关联的ID

在交互式Python Shell中获得最后结果

如何开始为Ubuntu开发

去噪自动编码器和常规自动编码器有什么区别？

Excel 2016图表将增长与4个参数进行比较

算术中的c ++常量类型转换

使用因子时如何在y轴上的ggplot中插入count或％

TreeMap中的自定义排序

如何在R中转置数据

在 React Native Expo 中使用 react-redux 更改另一个键的值