如何在Spark中将STRUCT的所有元素与1000多个元素结合在一起

回归器

我有一个火花数据框，如下所示，带有一个struct字段。

val arrayStructData = Seq(
Row("James",Row("Java","XX",120)),
Row("Michael",Row("Java","",200)),
Row("Robert",Row("Java","XZ",null)),
Row("Washington",Row("","XX",120))
)

val arrayStructSchema = new StructType().add("name",StringType).add("my_struct", new StructType().add("name",StringType).add("author",StringType).add("pages",IntegerType))

val df = spark.createDataFrame(spark.sparkContext.parallelize(arrayStructData),arrayStructSchema)


df.printSchema()
root
 |-- name: string (nullable = true)
 |-- my_struct: struct (nullable = true)
 |    |-- name: string (nullable = true)
 |    |-- author: string (nullable = true)
 |    |-- pages: integer (nullable = true)

df.show(false)

+----------+---------------+
|name      |my_struct      |
+----------+---------------+
|James     |[Java, XX, 120]|
|Michael   |[Java, , 200]  |
|Robert    |[Java, XZ,]    |
|Washington|[, XX, 120]    |
+----------+---------------+

我想构造一个输出列final_list，该列显示结构中是否存在元素。问题是，在此示例中，结构元素仅限于3个，但是在实际数据中，结构中有1,000个元素，每个记录可能包含也可能不包含每个元素中的值。

这是我要构造列的方式-

val cleaned_df = spark.sql(s"""select name, case when my_struct.name = "" then "" else "name" end as name_present
, case when my_struct.author = "" then "" else "author" end as author_present 
, case when my_struct.pages = "" then "" else "pages" end as pages_present 
from df""")
cleaned_df.createOrReplaceTempView("cleaned_df")
cleaned_df.show(false)
+----------+------------+--------------+-------------+
|name      |name_present|author_present|pages_present|
+----------+------------+--------------+-------------+
|James     |name        |author        |pages        |
|Michael   |name        |              |pages        |
|Robert    |name        |author        |pages        |
|Washington|            |author        |pages        |
+----------+------------+--------------+-------------+

因此，我case为每个列编写了一个语句以捕获其存在或不存在。然后我像下面这样进行concat以获得最终输出-

val final_df = spark.sql(s"""
select name, concat_ws("," , name_present, author_present, pages_present) as final_list
from cleaned_df
""")
final_df.show(false)
+----------+-----------------+
|name      |final_list       |
+----------+-----------------+
|James     |name,author,pages|
|Michael   |name,,pages      |
|Robert    |name,author,pages|
|Washington|,author,pages    |
+----------+-----------------+

我不能写一个巨大的case语句来捕获1000个元素的结构。有更聪明的方法吗？也许是UDF？

我正在使用Spark 2.4.3。我不知道是否有任何支持此功能的高阶函数。但是我的真实数据框的架构如下所示-

 |-- name: string (nullable = true)
 |-- my_struct: struct (nullable = true)
 |    |-- name: string (nullable = true)
 |    |-- author: string (nullable = true)
 |    |-- element3: integer (nullable = true)
 |    |-- element4: string (nullable = true)
 |    |-- element5: double (nullable = true)
 .....
 .....
 |    |-- element1000: string (nullable = true)

维纳

您已经提到过UDF。使用UDF，您可以遍历my_struct的所有字段并收集标志：

def availableFields = (in:Row) => {
  val ret = scala.collection.mutable.ListBuffer.empty[String]
  for( i <- Range(0, in.size)) {
    if( !in.isNullAt(i) && in.get(i) != "") {
      ret += in.schema.fields(i).name
    }
  }
  ret.mkString(",")
}
val availableFieldsUdf = udf(availableFields)

df.withColumn("final_list", availableFieldsUdf(col("my_struct")) ).show(false)

版画

+----------+---------------+-----------------+
|name      |my_struct      |final_list       |
+----------+---------------+-----------------+
|James     |[Java, XX, 120]|name,author,pages|
|Michael   |[Java, , 200]  |name,pages       |
|Robert    |[Java, XZ,]    |name,author      |
|Washington|[, XX, 120]    |author,pages     |
+----------+---------------+-----------------+

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-24

我来说两句

0 条评论

登录后参与评论

上一篇：如何使用另一个集合中的信息过滤MongoDB集合？

如何在Spark中将STRUCT的所有元素与1000多个元素结合在一起

如何在Spark中将STRUCT的所有元素与1000多个元素结合在一起

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

隐藏发件人没有短信PHP

在Windows 7中无法删除文件（2）

HttpClient中的角度变化检测

Java Eclipse中的错误13，如何解决？

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

java io ioexception无法解析服务器地址解析器的响应

jOOQ：在特定表中查找约束

Flexbox CSS 对齐属性环境惰性？

共享图像将路径放入地址

加载Microsoft Visual菜单时出现问题

Powerpoint-条形长度错误的堆积条形图

应用发明者仅从列表中选择一个随机项一次

在Angular2中的输入值之前添加加号“ +”

检查errno！= EINTR：这是什么意思？

ClickHouse 创建临时表

ggplot：对齐多个分面图-所有大小不同的分面

Azure VM启动/停止日志

是否可以通过编程方式对很多动画进行重新着色？