从AWS s3中的文件夹发送Spark流-PySpark

sidd607

我在aws 3中有一个文件夹“ input”。我想流式传输在该文件夹中创建的新文件。我正在使用此代码:

ssc = StreamingContext(sc, 10)
rdd = ssc.textFileStream("s3n://dynamodbstream607/input/*")

但是它抛出一个错误,指出输入/ *不存在。我如何从S3中的文件夹中获取火花以流式传输

本·弗拉德(BenFradet)

根据此PR,它将在2.0中可用。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

AWS S3中的空文件夹

pyspark 从 AWS S3 读取文件不起作用

使用org.apache.hadoop:hadoop-aws从pyspark中的s3中读取文件

使用 pyspark/python 列出 AWS S3 上目录中的文件

s3存储桶中文件夹的pyspark列表子文件夹

在AWS S3存储桶的特定“文件夹”中列出文件

AWS S3存储桶策略-仅允许文件夹中的某些文件类型

处理嵌套 s3 文件夹中的分区 Parquet 文件的 AWS GLUE 作业失败

将对象放在AWS S3红宝石中的特定文件夹中

AWS EMR Spark胶水PySpark-

Python - 从特定文件夹/子文件夹 AWS S3 下载数据

重命名AWS S3存储桶中的文件夹的成本

AWS CLI S3命令不适用于文件夹中的空格

ruby aws sdk s3删除文件夹中的对象

PowerShell for AWS:仅列出S3存储桶中的“文件夹”吗?

如何使用AWS PowerShell在S3中创建新文件夹

在Scala中将图像存储在AWS S3的子文件夹中

文件夹键不匹配中的 AWS S3 对象

在AWS EMR PySpark作业中管理机密

如何使用pyspark仅检索s3文件夹路径中的文件名

使用Jupyter Notebook中的PySpark从AWS EMR集群读取存储在AWS S3中的未压缩Shapefile

检索AWS S3(v 2.4.4)中某些文件夹中的文件列表并将其删除

有什么方法可以将移动存储中的文件夹与AWS S3存储桶中的文件夹同步?

Python-无法将文件上传到AWS S3存储桶中的已定义文件夹

AWS S3存储桶中特定文件夹内html文件上的Content-Encoding标头

如何使用 Node.js 从 AWS Lambda 中的 /tmp 文件夹将 WAV 文件上传到 S3

AWS CLI在s3存储桶中搜索文件并复制到其他文件夹

当文件上传到 S3 中的特定文件夹时,您能否触发 AWS lambda 函数?

从 Pyspark 调用 AWS S3 存储桶时出错。AWS 错误代码:null,AWS 错误消息:错误请求