如何在一个微批处理中设置最大行数？

Litchy 发表于 Dev

利奇

我正在foreachBatch通过以下代码使用火花结构化流从redis读取批处理记录（尝试通过设置batchSize stream.read.batch.size）

val data = spark.readStream.format("redis")
  .option("stream.read.batch.size").load()

val query = data.writeStream.foreachBatch { 
  (batchDF: DataFrame, batchId: Long) => ...
  // we count size of batchDF here, we want to limit its size
  // some operation
}

目前，我们将其设置stream.read.batch.size为128，但似乎不起作用。batchSize似乎是随机的，有时超过1000甚至10000。

但是，我不想等待那么长时间（10000条记录），因为我// some operation需要尽快进行一些操作（在代码注释中），以便我希望控制最大批处理大小，以便当记录达到此限制时可以立即处理，该怎么办？

fe2s

我是spark-redis的维护者。当前不支持此功能。该stream.read.batch.size参数控制单个Redis API调用（countXREADGROUP调用的参数）读取的项目数。它不会影响每个触发器的项目数（batchDF大小）。我已经在github上为该功能请求打开了一张票。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-14

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

如何在一个微批处理中设置最大行数？

如何在一个微批处理中设置最大行数？

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u