Google Cloud PubSub:如何仅读取最新记录

bp2010

在卡夫卡有2设置earliestlatest在那里你无论是从最早阅读的主题或事件最新的偏移量(0)(用于实时有用)

我现在将PubSub与Dataflow和Beam一起使用,但是默认情况下,该作业似乎是每次启动时最早读取的内容。如何配置它,使其仅读取最新记录?

正如latestKafka中的默认值一样,有人可以解释为什么在Pub / Sub中不容易做到这一点吗?

纪尧姆·布拉奎尔

最新的定义是什么?确实,对于Beam,PubsubIO阅读器是无限阅读。意思是,没有尽头,总有新近!

因此,这是出于哲学方面。实际上,您必须定义最新的内容。使用beam时,可以使用windowing然后,您可以说,在5分钟的时间内,我要处理最后一个窗口在这里,最新的定义是正确的,您可以实现。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何始终从Google Cloud Datastore中读取最新实体

如何为Google Cloud Pubsub“创建” /“分配”日志记录处理程序?

如何仅使用主题名称(而不是订阅名称)订阅Google Cloud pubsub?

Google Cloud Pubsub数据丢失

记录 Python 和 Google Cloud

Google Cloud Bigtable读取多行

如何缩放activejob-google_cloud_pubsub worker?

如何为Google Cloud PubSub中的订阅提供到期时间

如何使用 Google Cloud Functions / Tasks / PubSub 进行批处理?

如何从Cloud Functions连接Google Cloud SQL?

使用Google Cloud Dataflow读取多个Parquet文件时如何分辨记录来自哪个文件

如何从Google App Engine读取Google Cloud Storage文件

使用DoFn使用Cloud Dataflow从PubSub写入Google Cloud Storage

与Cloud Dataflow搭配使用时说明Google Cloud PubSub的费用

Google Cloud Dataflow - 从 PubSub 到 Parquet

Google Cloud PubSub 访问查询参数

Google Cloud:如何在 Cloud Datalab 中使用 Cloud ML

Google Cloud如何获得授权?

Google Cloud Platform:如何重命名Google Cloud Platform项目?

如何从Google Cloud Functions NodeJS连接到Google Cloud Storage

Google Cloud PubSub-如何将多个参数发送到Cloud Function

google.cloud.pubsub_v1和google.cloud.pubsub有什么区别?

Google Cloud Platform-多行记录

Google Cloud Vm上的PTR记录

在Google Cloud VM上记录作业

在Google Cloud Machine Learning中读取档案

如何关闭Google Cloud存储桶的日志记录?

如何记录谁在 Google Cloud Storage 中下载了签名 URL?

如何更改Google Cloud DNS中当前记录的TTL?