我有Spark DF,它由20列组成,我想从中查找列的哪个值介于High
和Low
列值之间。
Time,8,7,6,5,4,3,2,1,0,-1,-2,-3,-4,-5,-6,-7,-8,High,Low
09:16,930.9476296,927.4296671,924.1894385,923.2636589,921.6898335,920.578898,919.4679625,918.171871,915.95,913.728129,912.4320375,911.321102,910.2101665,908.6363411,907.7105615,904.4703329,900.9523704,919.95,917.65
我尝试下面的命令,它给了一个错误:
joineddata.withColumn('RR', map(lambda x: [x], ((F.col(x) >= (F.col('Low')) & (F.col(x) <= (F.col('High')) for x in joineddata.columns[1:18]))))).show()
错误:
TypeError:列不可迭代
所需结果:
我想拥有一个新列,该列是其名称介于High
和之间的列名称列表Low
。
Time,8,7,6,5,4,3,2,1,0,-1,-2,-3,-4,-5,-6,-7,-8,High,Low,RR
09:16,930.9476296,927.4296671,924.1894385,923.2636589,921.6898335,920.578898,919.4679625,918.171871,915.95,913.728129,912.4320375,911.321102,910.2101665,908.6363411,907.7105615,904.4703329,900.9523704,919.95,917.65,[2,1]
只需使用when
和收集数组中的列名,然后between
检查一列是否满足条件,然后过滤结果数组以删除空值(不满足条件的列):
df = joineddata.withColumn('RR', array(*[when(col(c).between(col('Low'), col("High")), lit(c)) for c in df.columns[1:18]]))\
.withColumn('RR', expr("filter(RR, x -> x is not null)"))
df.select("Time", "RR").show()
#+-----+------+
#| Time| RR|
#+-----+------+
#|09:16|[2, 1]|
#+-----+------+
请注意,第二步使用的filter
功能仅在Spark 2.4+中可用。对于较旧的版本,可以使用UDF。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句