在此处输入图像描述我在 GCP 的 Bigtable 中存储了一个巨大的数据库。我正在使用 DataFlow 将 bigtable 数据从一个帐户迁移到另一个 GCP 帐户。但是,当我创建一个从 bigtable 创建序列文件的作业时,它在目标存储桶上创建了 3000 个序列文件。因此,不可能为每个 3000 个序列文件创建一个数据流,因此,有什么方法可以减少序列文件或在 GCP 的数据流作业模板中一次提供整个 3000 个序列文件
序列文件的命名应该有某种模式,例如gs://mybucket/somefolder/output-1, gs://mybucket/somefolder/output-2, gs://mybucket/somefolder/output-3
等。
当运行在云存储SequenceFile到Bigtable的数据流模板设置的sourcePattern
参数,这样的模式的前缀gs://mybucket/somefolder/output-*
或gs://mybucket/somefolder/*
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句