根据pyspark中另一列的值编辑具有相同id的列的所有行的值

夏贝尔

ID	选择1	val2
1	是	已标记
1	ñ	已标记
2	ñ	已标记
2	是	已标记
2	ñ	已标记

我有上表。我想检查 val1 中具有相同 id 的行，如果至少有一个 Y 和一个 N，那么所有具有 1 作为 id 的行都将在 val2 中标记。此外，为了更高效的代码，我希望代码在找到 Y 后跳转到下一个 id。

舒巴姆·夏尔马

假设val1列仅包含唯一值Y，N您可以将数据框分组id并聚合val1使用countDistinct以计算唯一值，然后创建一个flagged对应于不同计数> 1的条件的新列，最后join这个新列与原始数据框得到结果

from pyspark.sql import functions as F

counts = df.groupBy('id').agg(F.countDistinct('val1').alias('flagged'))
df = df.join(counts.withColumn('flagged', F.col('flagged') > 1), on='id')

如果 columnval1可能包含其他值以及Y, N，则首先屏蔽不在Y和中的值N：

vals = F.when(F.col('val1').isin(['Y', 'N']), F.col('val1'))

counts = df.groupBy('id').agg(F.countDistinct(vals).alias('flagged'))
df = df.join(counts.withColumn('flagged', F.col('flagged') > 1), on='id')

>>> df.show()

| id|val1|flagged|
+---+----+-------+
|  1|   Y|   true|
|  1|   N|   true|
|  2|   N|   true|
|  2|   Y|   true|
|  2|   N|   true|
+---+----+-------+

PS：我还稍微修改了您的输出，因为flagged使用布尔值命名的列更有意义

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2022-08-12

我来说两句

0 条评论

登录后参与评论

上一篇：如何计算字符串编写较少代码中的大写和小写字母？

TOP 榜单

文章

根据pyspark中另一列的值编辑具有相同id的列的所有行的值

根据pyspark中另一列的值编辑具有相同id的列的所有行的值

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用