我们有 7 个节点的 Cassandra 3.11.3 生产集群,我们将票证详细信息转储到中间服务器,我需要从此 .csv 文件中读取并将 .csv 数据导入到 cassandra 表中。我尝试了 ruby 代码,这对我来说很容易编写,但它没有处理所有的列值(因为这个 .csv 将有特殊字符、输入/不同的行、UTF 问题、太多的文本描述,因为它在票务中工具),因为数据在 .csv 中的每一行中都在不断变化。
我想知道 ruby 或 python 是否适合在生产中执行此活动,或者是否有人有很好的示例代码来缓解上述问题并在生产环境中执行此类活动?
Ruby 和 Python 都非常适合这种任务,但是如果您的源文件格式错误,那么任何潜在的工具都可能失败 - 没有魔术按钮工具可以从(损坏的)数据文件中推断出上下文并修复所有问题自动为您解决问题。
我建议将任务分成两部分:1)修复编码和数据质量问题(并在必要时执行任何数据转换),然后 2)导入干净的数据。
任务 2 几乎可以使用任何编程语言(具有适当的 cassandra 驱动程序)轻松完成,但如果您有一个格式良好的 csv 源,您可能根本不需要任何黑客攻击(当然,取决于用例)- Cassandra 支持copy ... from
允许直接从 csv 导入数据的命令(https://docs.datastax.com/en/cql/3.3/cql/cql_reference/cqlshCopy.html)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句