PySpark数据框分组和计数空值

用户名

我有以下形式的Spark数据框：

+------+-------+-----+--------+
| Year | Month | Day | Ticker |
+------+-------+-----+--------+

我正在尝试按“年”对所有值进行分组，并计算每年每一列中缺失值的数量。

我发现以下代码片段（忘记了来自哪里）：

df.select(*(sum(col(c).isNull().cast("int")).alias(c) for c in df.columns)).show()

当计算每列的缺失值数量时，这非常理想。但是，我不确定如何修改此值以计算每年的缺失值。

朝正确方向的任何指针将不胜感激。

它是

您可以使用相同的逻辑并添加分组依据。请注意，我还从汇总列中删除了“ year”，但这是可选的（您将获得两个“ year”列）。

columns = filter(lambda x: x != "year", df.columns)
df.groupBy("year")\
  .agg(*(sum(col(c).isNull().cast("int")).alias(c) for c in columns))\
  .show()

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-1

我来说两句

0 条评论

登录后参与评论

上一篇：如何从XMonad中的所有浮动窗口中删除边框

PySpark数据框聚合中的计数包括空值

熊猫数据框。按值和计数分组

从pyspark数据框中获取多个（100+）列的空计数，最小值和最大值的最佳方法

Pyspark Dataframe数据透视和分组计数

数据框熊猫的分组依据值计数

Pyspark：需要显示数据框中每列的空/空值计数

PySpark合并数据框和计数值

pyspark数据帧中分组元素的分组和除法计数

Python数据框获取空值计数

在熊猫数据框中分组连续相同的值和出现次数的累积计数

填充pyspark数据框空值

在pyspark数据框中处理空值

pyspark 数据框分组

设置基于数据框列值的值计数并按分组

PySpark：检索数据框中的组的均值和均值附近的值计数

Pandas：如何合并分组数据框中的值计数

熊猫数据框按两列分组，计数和总和

分组数据框并根据日期和计数重新排序

分组中的空值计数

Pyspark如何从数据框中对基于行的值进行分组

空值和countDistinct与spark数据框

如何合并pyspark数据框并删除空值？

Pyspark：根据每行空值的数量过滤数据框

Pyspark从数据框中的列中删除空值

如何在pyspark数据框中过滤空值？

在pyspark数据框中将非空值填充为1

Pyspark 计数空值列特定值

确定分组数据框中的较低和较高值

数据框空检查pyspark

TOP 榜单

文章

PySpark数据框分组和计数空值

PySpark数据框分组和计数空值

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID