CountDistinct基于另一个列Pyspark中的条件

Darcy 发表于 Dev

达西

我有以下DF示例：

------------------+---------+
|           ticket_id|news_item|
+--------------------+---------+
|13001244822020121...|        1|
|13000386812020121...|        0|
|13000521120201212...|        0|
|13000578320201212...|        0|
|13000667320201212...|        0|
|13001430320201212...|        0|
|13001440320201212...|        0|
|13001497120201212...|        0|
|13001518420201212...|        0|
|13001117120201212...|        1|

我想做的是基于news_item列计算所有ticket_id。因此，例如，如果DF有300行，则所需的输出应为：

 new_column_name     |news_item|
+--------------------+---------+
|200                 |        1|
|100                 |        0|

我正在使用的代码如下：

output = (df
          .groupby('is_lidl_plus','news_item')
          .agg(f.countDistinct('ticket_id').alias('total_tickets'),
            **f.countDistinct(f.when('news_item')==1)).alias('tickets_with_vouchure')**,
               f.round(f.sum('gross_spending'),2).alias('total_amount_spend'),
               f.round(f.avg('gross_spending'),2).alias('average_gross_amount_spend'),
               f.round(f.avg('net_spending'),2).alias('average_amount_spend')))

pyspark的输出是：

TypeError：when（）缺少1个必需的位置参数：“ value”

有什么线索吗？

麦克

我认为您是要这样做？您想计算带有news_item = 1的ticket_id的数量吗？

f.countDistinct(
    f.when(
        f.col('news_item')==1,
        f.col('ticket_id')
    )
).alias('tickets_with_vouchure')

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-26

我来说两句

0 条评论

登录后参与评论

上一篇：C ++双向链表，在动态分配节点后是否应该删除节点？

基于Jackson中另一个字段值的条件字段要求？

基于另一个表PySpark / SQL的datetime列聚合列

CountDistinct基于另一个列Pyspark中的条件

CountDistinct基于另一个列Pyspark中的条件

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用