在卡夫卡有2设置earliest
和latest
在那里你无论是从最早阅读的主题或事件最新的偏移量(0)(用于实时有用)
我现在将PubSub与Dataflow和Beam一起使用,但是默认情况下,该作业似乎是每次启动时最早读取的内容。如何配置它,使其仅读取最新记录?
正如latest
Kafka中的默认值一样,有人可以解释为什么在Pub / Sub中不容易做到这一点吗?
最新的定义是什么?确实,对于Beam,PubsubIO阅读器是无限阅读。意思是,没有尽头,总有新近!
因此,这是出于哲学方面。实际上,您必须定义最新的内容。使用beam时,可以使用windowing。然后,您可以说,在5分钟的时间内,我要处理最后一个窗口。在这里,最新的定义是正确的,您可以实现。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句