Spark：将Avro RDD转换为csv

罗摩克里希纳

我能够读arvo入文件，avroRDD并尝试将csvRDD包含所有以逗号分隔的值转换为该文件。使用以下代码，我可以将特定字段读入csvRDD。

val csvRDD = avroRDD .map({case (u, _) => u.datum.get("empname")})

如何将所有值读入csvRDD而不是指定字段名称。我的结果csvRDD应包含以下记录

(100,John,25,IN)
(101,Ricky,38,AUS)
(102,Chris,68,US)

马塞尔·克查（Marcel Krcah）

结合使用Databricks的Spark 1.2+和Spark-Avro集成库，可以将avro rdd转换为csv rdd，如下所示：

val sqlContext = new SQLContext(sc)
val episodes = sqlContext.avroFile("episodes.avro")
val csv = episodes.map(_.mkString(","))

运行csv.collect().foreach(println)使用该样本的Avro文件打印

The Eleventh Hour,3 April 2010,11
The Doctor's Wife,14 May 2011,11
Horror of Fang Rock,3 September 1977,4
An Unearthly Child,23 November 1963,1
The Mysterious Planet,6 September 1986,6
Rose,26 March 2005,9
...

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-26

我来说两句

0 条评论

登录后参与评论

Spark：将 CSV 转换为 RDD[Row]

将csv RDD转换为地图

将 CSV 转换为 RDD 并使用 Spark/Scala 读取

如何将CSV文件转换为RDD

如何将 .csv 文件转换为 RDD<Vector>？

使用python将CSV转换为AVRO

将Spark RDD转换为数据集

Spark：如何将RDD的Seq转换为RDD

将 Rdd 转换为列表

如何将Spark RDD保存到Avro文件

Spark Avro通过键将RDD写入多个目录

将 spark Rdd 列转换为 Pyspark 中的行

如何将地图转换为Spark的RDD

如何使用 Scala 语言将 Spark RDD 转换为 JSON

如何将spark DataFrame转换为RDD mllib LabeledPoints？

Spark如何将RDD [JSONObject]转换为数据集

Spark：将 Array[Byte] 数据转换为 RDD 或 DataFrame

Spark：如何将pairRdd的值转换为Rdd？

如何将spark rdd转换为numpy数组？

如何将 Pandas DataFrame 的 rdd 转换为 Spark DataFrame

数组[Byte] Spark RDD转换为String Spark RDD

在Spark / Scala中将RDD转换为Dataframe

在scala中将Spark Dataframe转换为RDD

无法将 RDD 转换为数据帧

使用pyspark将RDD转换为DataFrame

将类对象转换为Java RDD

将本地向量转换为RDD [向量]

将Scala Iterable [tuple]转换为RDD

将RDD转换为可迭代的：PySpark？

TOP 榜单

文章

Spark：将Avro RDD转换为csv

Spark：将Avro RDD转换为csv

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）