如何在Kafka connect 0.10和Spark结构化流中使用from_json？

卡洛斯·罗德里格斯

我试图从[Databricks] [1]重现该示例，并将其应用到Kafka的新连接器并进行火花结构化流式传输，但是我无法使用Spark中的现成方法正确解析JSON ...

注意：该主题以JSON格式写入Kafka。

val ds1 = spark
          .readStream
          .format("kafka")
          .option("kafka.bootstrap.servers", IP + ":9092")
          .option("zookeeper.connect", IP + ":2181")
          .option("subscribe", TOPIC)
          .option("startingOffsets", "earliest")
          .option("max.poll.records", 10)
          .option("failOnDataLoss", false)
          .load()

以下代码将不起作用，我认为这是因为列json是字符串并且与from_json签名方法不匹配...

    val df = ds1.select($"value" cast "string" as "json")
                .select(from_json("json") as "data")
                .select("data.*")

有小费吗？

[更新]示例工作：https : //github.com/katsou55/kafka-spark-structured-streaming-example/blob/master/src/main/scala-2.11/Main.scala

阿巴格尔

首先，您需要为JSON消息定义架构。例如

val schema = new StructType()
  .add($"id".string)
  .add($"name".string)

现在，您可以在from_json以下方法中使用此架构。

val df = ds1.select($"value" cast "string" as "json")
            .select(from_json($"json", schema) as "data")
            .select("data.*")

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-5

我来说两句

0 条评论

登录后参与评论

使用Spark结构化流技术读取带有模式的Kafka Connect JSONConverter消息

如何在Kafka Direct Stream中使用Spark结构化流？

如何在Kafka connect 0.10和Spark结构化流中使用from_json？

如何在Kafka connect 0.10和Spark结构化流中使用from_json？

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用