Spark：Split不是org.apache.spark.sql.Row的成员

Vin 发表于 Dev

183

葡萄酒

下面是我来自Spark 1.6的代码。我正在尝试将其转换为Spark 2.3，但是使用split却出现错误。

Spark 1.6代码：

val file = spark.textFile(args(0))
val mapping = file.map(_.split('/t')).map(a => a(1))
mapping.saveAsTextFile(args(1))

Spark 2.3代码：

val file = spark.read.text(args(0))
val mapping = file.map(_.split('/t')).map(a => a(1)) //Getting Error Here
mapping.write.text(args(1))

错误信息：

value split is not a member of org.apache.spark.sql.Row

狮子座

与spark.textFilewhich返回a不同RDD，spark.read.text返回aDataFrame实际上是a RDD[Row]。您可以执行map部分功能，如以下示例所示：

// /path/to/textfile:
// a    b   c
// d    e   f

import org.apache.spark.sql.Row

val df = spark.read.text("/path/to/textfile")

df.map{ case Row(s: String) => s.split("\\t") }.map(_(1)).show
// +-----+
// |value|
// +-----+
// |    b|
// |    e|
// +-----+

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-20

我来说两句

0 条评论

登录后参与评论

上一篇：如何在客户端使用外部打字稿库？

相关文章

值toDS不是org.apache.spark.rdd.RDD的成员

值reduceByKey不是org.apache.spark.rdd.RDD的成员

在spark中使用Hive上下文时出错：对象Hive不是包org.apache.spark.sql的成员

从ʻorg.apache.spark.sql.Row`中提取信息

值联接不是org.apache.spark.rdd.RDD的成员

值toDF不是org.apache.spark.rdd.RDD的成员

对象流不是包org.apache.spark的成员

对象DataFrame不是包org.apache.spark.sql的成员

对象ml不是包org.apache.spark的成员

值查找不是org.apache.spark.rdd.RDD的成员

为什么Spark会失败并显示“值rdf不是org.apache.spark.sql.SparkSession的成员”？

SparkSQL数据帧错误：值显示不是org.apache.spark.sql.DataFrameReader的成员

对象hbase不是包org.apache.spark.sql.execution.datasources的成员

扩展org.apache.spark.sql.Row功能：Spark Scala

sbt错误：对象spark不是包org.apache的成员

Scastie渲染编译器错误为“值countByValue不是org.apache.spark.sql.Dataset [String]的成员”

错误：bulkCopyToSqlDB不是org.apache.spark.sql.DataFrameWriter的成员

Scala错误：值registerTempTable不是org.apache.spark.sql.SchemaRDD的成员

值avro不是org.apache.spark.sql.DataFrameReader的成员

forEach Spark Scala中的错误：值选择不是org.apache.spark.sql.Row的成员

sortBy不是org.apache.spark.rdd.RDD的成员

错误：值 cassandraFormat 不是 org.apache.spark.sql.DataFrameWriter 的成员

如何构造可用于在 spark/scala 中映射 JavaRDD[org.apache.spark.sql.Row] 的函数？

为什么在 spark-shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

值 collectAsMap 不是 org.apache.spark.rdd.RDD 的成员

value head 不是 org.apache.spark.sql.Row 的成员

如何解决 Spark 中的“aggregateByKey 不是 org.apache.spark.sql.Dataset 的成员”？

Spark 2.4.3 - Scala 2.12.3 - 对象 apache 不是包 org 的成员

检查 org.apache.spark.sql.Row 的值

TOP 榜单

文章

热门标签

归档