如果 Spark-streaming 应用程序遇到一个巨大的文件会发生什么?

安吉特·凯特里

让我们考虑以下代码:

val streamingContext = new StreamingContext(sparkConf, Seconds(frequency))
val stream = streamingContext.textFileStream("/abc/def")

比如说,如果一个 1 TB 的文件突然出现在这个目录中,会发生什么?它是如何处理的,或者它是如何失败的?

与此相关的是,如果 Spark 无法跟上传入数据的速度,会发生什么情况?

巴韦什

Spark Streaming 接收数据流,将数据分批,然后由 Spark 引擎处理,分批生成最终的结果流。

这应该不会影响处理它会将数据保留在队列中进行处理,如果处理需要很长时间队列会增加

检查点将负责故障转移机制

注意:在极端情况下,如果它无法处理输入请求,它将失败,这取决于您的集群处理能力。

在此处输入图片说明

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如果仅指定了1个kafka代理,Spark Streaming是否可以自动发现新的kafka代理?

如何部署Spark Streaming应用程序?

我的Spark Streaming程序流程

从spark-shell(pyspark)查询Spark Streaming应用程序

Spark Streaming独立应用程序和依赖项

我的Spark Streaming应用程序中的OOM异常

Spark Streaming + Spark SQL

更改Spark Streaming输出的文件名

Spark Streaming创建许多小文件

Spark Streaming:避免HDFS中的小文件

如果Spark广播连接太大,会发生什么?

如果在YARN-SPARK中的映射操作中单个文件大于执行程序,会发生什么?

如果多个 azure 函数应用程序绑定到同一个存储队列以进行输入,会发生什么情况

Spark Streaming、Structured Streaming 和 Kafka Streaming 是一回事吗?

如果超过100个用户尝试连接到Firebase Spark Plan,会发生什么情况

在Spark Streaming应用程序中联接数据的最佳方法是什么?

重新启动Spark Streaming应用程序的最佳方法是什么?

如何将Spark Streaming应用程序的输出写入单个文件

如果两个应用程序版本在 google play 中同时审核会发生什么?

重新启动Spark作业时,如果馈入kafka的数据遇到意外格式,会发生什么情况

如果我通过 spark-submit 将非 spark jar 提交到集群会发生什么?

如何查看一个 Spark Streaming 应用的逻辑和物理规划?

Spark Streaming中的窗口?

Spark Streaming textFileStream COPYING

Spark Streaming Kafka parallelModificationException

Spark Streaming reduceByKeyAndWindow示例

Spark Streaming Kafka流

Spark Streaming累计字数

Spark Streaming with Hbase