Spark：检查嵌套数组中是否存在值而不爆炸

riyaB 发表于 Dev

丽雅B

我有一个如下所示的数据集：

val df = Seq(("beatles", Seq(Seq("help", "hey jude"))), 
            ("romeo", Seq(Seq("help2", "hey judge"),Seq("help3", "they judge")))).toDF("col1", "col2")

root
 |-- col1: string (nullable = true)
 |-- col2: array (nullable = true)
 |    |-- element: array (containsNull = true)
 |    |    |-- element: string (containsNull = true)

我想在数据hasHitSong框中添加一列，它将迭代 col2 下的热门歌曲序列，检查是否存在热门歌曲，例如。“嘿裘德”并将其标记为 1，否则标记为 0。

| col1    | col2                                            | hasHitSongs |
|---------|-------------------------------------------------|-------------|
| beatles | ["help", "hey jude"]                            | 1           |
| romeo   | [["help2", "hey judge"],["help3", "hey judge"]] | 0           |

有没有办法在不爆炸列 col2 并且只迭代 col2 下的嵌套数组的情况下执行此操作？

贝尔瓦尔

如果您使用的是 spark 2.4 或更高版本：

使用内置函数

df.withColumn("hasHitSongs", array_contains(flatten(col("col2")), "hey jude"))

使用高阶函数

df.withColumn("hasHitSongs, expr("exists(col2, a -> exists(a, b -> b = 'hey jude'))"))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-8

我来说两句

0 条评论

登录后参与评论

上一篇：数组中的随机项目，在 Javascript 中不重复元素

Javascript嵌套数组检查值是否存在

检查嵌套数组中是否存在对象 reactjs

如何检查嵌套数组中是否存在项目

Spark：检查嵌套数组中是否存在值而不爆炸

Spark：检查嵌套数组中是否存在值而不爆炸

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成