Spark:Split不是org.apache.spark.sql.Row的成员

葡萄酒

下面是我来自Spark 1.6的代码。我正在尝试将其转换为Spark 2.3,但是使用split却出现错误。

Spark 1.6代码:

val file = spark.textFile(args(0))
val mapping = file.map(_.split('/t')).map(a => a(1))
mapping.saveAsTextFile(args(1))

Spark 2.3代码:

val file = spark.read.text(args(0))
val mapping = file.map(_.split('/t')).map(a => a(1)) //Getting Error Here
mapping.write.text(args(1))

错误信息:

value split is not a member of org.apache.spark.sql.Row
狮子座

spark.textFilewhich返回a不同RDDspark.read.text返回aDataFrame实际上是a RDD[Row]您可以执行map部分功能,如以下示例所示:

// /path/to/textfile:
// a    b   c
// d    e   f

import org.apache.spark.sql.Row

val df = spark.read.text("/path/to/textfile")

df.map{ case Row(s: String) => s.split("\\t") }.map(_(1)).show
// +-----+
// |value|
// +-----+
// |    b|
// |    e|
// +-----+

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

值toDS不是org.apache.spark.rdd.RDD的成员

值reduceByKey不是org.apache.spark.rdd.RDD的成员

在spark中使用Hive上下文时出错:对象Hive不是包org.apache.spark.sql的成员

从ʻorg.apache.spark.sql.Row`中提取信息

值联接不是org.apache.spark.rdd.RDD的成员

值toDF不是org.apache.spark.rdd.RDD的成员

对象流不是包org.apache.spark的成员

对象DataFrame不是包org.apache.spark.sql的成员

对象ml不是包org.apache.spark的成员

值查找不是org.apache.spark.rdd.RDD的成员

为什么Spark会失败并显示“值rdf不是org.apache.spark.sql.SparkSession的成员”?

SparkSQL数据帧错误:值显示不是org.apache.spark.sql.DataFrameReader的成员

对象hbase不是包org.apache.spark.sql.execution.datasources的成员

扩展org.apache.spark.sql.Row功能:Spark Scala

sbt错误:对象spark不是包org.apache的成员

Scastie渲染编译器错误为“值countByValue不是org.apache.spark.sql.Dataset [String]的成员”

错误:bulkCopyToSqlDB不是org.apache.spark.sql.DataFrameWriter的成员

Scala错误:值registerTempTable不是org.apache.spark.sql.SchemaRDD的成员

值avro不是org.apache.spark.sql.DataFrameReader的成员

forEach Spark Scala中的错误:值选择不是org.apache.spark.sql.Row的成员

sortBy不是org.apache.spark.rdd.RDD的成员

错误:值 cassandraFormat 不是 org.apache.spark.sql.DataFrameWriter 的成员

如何构造可用于在 spark/scala 中映射 JavaRDD[org.apache.spark.sql.Row] 的函数?

为什么在 spark-shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”?

值 collectAsMap 不是 org.apache.spark.rdd.RDD 的成员

value head 不是 org.apache.spark.sql.Row 的成员

如何解决 Spark 中的“aggregateByKey 不是 org.apache.spark.sql.Dataset 的成员”?

Spark 2.4.3 - Scala 2.12.3 - 对象 apache 不是包 org 的成员

检查 org.apache.spark.sql.Row 的值