如何有效地查找PySpark数据帧中每一列的Null和Nan值计数？

133

RF的George：

import numpy as np

df = spark.createDataFrame(
    [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))],
    ('session', "timestamp1", "id2"))

预期产量

每列的nan / null计数的数据框

注意：我在堆栈溢出中发现的先前问题仅检查null而不是nan。这就是为什么我创建了一个新问题。

我知道我可以在spark中使用isull（）函数在Spark列中查找Null值的数量，但是如何在Spark数据帧中查找Nan值？

user8183279：

您可以使用此处显示的方法并替换isNull为isnan：

from pyspark.sql.functions import isnan, when, count, col

df.select([count(when(isnan(c), c)).alias(c) for c in df.columns]).show()
+-------+----------+---+
|session|timestamp1|id2|
+-------+----------+---+
|      0|         0|  3|
+-------+----------+---+

要么

df.select([count(when(isnan(c) | col(c).isNull(), c)).alias(c) for c in df.columns]).show()
+-------+----------+---+
|session|timestamp1|id2|
+-------+----------+---+
|      0|         0|  5|
+-------+----------+---+

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-09-22

我来说两句

0 条评论

登录后参与评论

上一篇：AWS的169.254.169.254 IP地址有何特别之处？

如何有效地在Pyspark的数据帧的每一列上为每个最小值或最大值获取一行？

如何在数据帧的每一列中有效地按后继者划分

如何有效地查找PySpark数据帧中每一列的Null和Nan值计数？

如何有效地查找PySpark数据帧中每一列的Null和Nan值计数？

IE 11中的FormData未定义

如何一次从多个文本框中获取值？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

OpenCv：改变 putText() 的位置

Redux动作正常，但减速器无效

如何从JavaScript中的MP3文件读取元数据属性？

如何使用Redux-Toolkit重置Redux Store

将加号/减号添加到jQuery菜单

OpenGL纹理格式的颜色错误

获取并汇总所有关联的数据

超过时间限制错误C ++

ActiveModelSerializer仅显示关联的ID

在交互式Python Shell中获得最后结果

如何开始为Ubuntu开发

去噪自动编码器和常规自动编码器有什么区别？

Excel 2016图表将增长与4个参数进行比较

算术中的c ++常量类型转换

使用因子时如何在y轴上的ggplot中插入count或％

TreeMap中的自定义排序

如何在R中转置数据

在 React Native Expo 中使用 react-redux 更改另一个键的值