查找值位于PySpark Dataframe中特定列之间的所有列的列表

Jay 发表于 Dev

周杰伦

我有Spark DF，它由20列组成，我想从中查找列的哪个值介于High和Low列值之间。

Time,8,7,6,5,4,3,2,1,0,-1,-2,-3,-4,-5,-6,-7,-8,High,Low
09:16,930.9476296,927.4296671,924.1894385,923.2636589,921.6898335,920.578898,919.4679625,918.171871,915.95,913.728129,912.4320375,911.321102,910.2101665,908.6363411,907.7105615,904.4703329,900.9523704,919.95,917.65

我尝试下面的命令，它给了一个错误：

joineddata.withColumn('RR', map(lambda x: [x], ((F.col(x) >= (F.col('Low')) & (F.col(x) <= (F.col('High')) for x in joineddata.columns[1:18]))))).show()

错误：

TypeError：列不可迭代

所需结果：

我想拥有一个新列，该列是其名称介于High和之间的列名称列表Low。

Time,8,7,6,5,4,3,2,1,0,-1,-2,-3,-4,-5,-6,-7,-8,High,Low,RR
09:16,930.9476296,927.4296671,924.1894385,923.2636589,921.6898335,920.578898,919.4679625,918.171871,915.95,913.728129,912.4320375,911.321102,910.2101665,908.6363411,907.7105615,904.4703329,900.9523704,919.95,917.65,[2,1]

黑主教

只需使用when和收集数组中的列名，然后between检查一列是否满足条件，然后过滤结果数组以删除空值（不满足条件的列）：

df = joineddata.withColumn('RR', array(*[when(col(c).between(col('Low'), col("High")), lit(c)) for c in df.columns[1:18]]))\
               .withColumn('RR', expr("filter(RR, x -> x is not null)"))

df.select("Time", "RR").show()

#+-----+------+
#| Time|    RR|
#+-----+------+
#|09:16|[2, 1]|
#+-----+------+

请注意，第二步使用的filter功能仅在Spark 2.4+中可用。对于较旧的版本，可以使用UDF。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-27

我来说两句

0 条评论

登录后参与评论

上一篇：有没有办法使用JavaScript中的FileReader获取文件的特定部分？

选择列表中的Pandas DataFrame列值的所有行

查找位于其他 DataFrame 上两列值之间的 DataFrame 值

查找值位于PySpark Dataframe中特定列之间的所有列的列表

查找值位于PySpark Dataframe中特定列之间的所有列的列表

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException