在Pyspark中的多个列上过滤具有多个条件的Spark数据框

charlie_boy

我想在Pyspark中实现以下SQL条件

SELECT *
            FROM   table
            WHERE  NOT ( ID = 1
                         AND Event = 1 
                       ) 
               AND NOT ( ID = 2
                         AND Event = 2 
                       ) 
               AND NOT ( ID = 1 
                         AND Event = 0 
                       ) 
               AND NOT ( ID = 2
                         AND Event = 0 
                       ) 

这样做的干净方法是什么?

阿南德·维德瓦特(Anand Vidvat)

使用DataFrame API版本的filterwhere函数

等效代码如下:

df.filter(~((df.ID == 1) & (df.Event == 1)) & 
          ~((df.ID == 2) & (df.Event == 2)) & 
          ~((df.ID == 1) & (df.Event == 0)) &
          ~((df.ID == 2) & (df.Event == 0)))

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

以编程方式在多个列上过滤具有单个条件的Pandas数据框

在多个列上过滤具有相同条件的行

在不同列中的多个条件上过滤数据框

过滤具有多个条件的数据框

在dplyr中的字符串列上过滤多个值

在具有多个值的列上连接两个 pyspark 数据框

在带有日期的几列上具有多个条件的子集熊猫数据框

在列表中定义的列上过滤数据框

pyspark数据帧在多列上过滤

在Python中从数据框过滤多个条件

在具有多个条件的数据框中列出理解

Pyspark:如何在MapType列上过滤数据框?(如isin()的样式)

来自具有多个条件的数据框的条件子集

使用具有多个元素的字典过滤数据框

如何基于多个列上多个条件的组合为数据框中的新列分配值

根据多个条件删除PySpark数据框中的行

在多个列上具有多个条件的Select语句

熊猫python COUNTIF在具有多个条件的多个列上

dplyr:case_when()在具有多个条件的多个列上

在Oracle DBMS的多个列上联接具有过滤条件的表

按具有多个变量的数据框中的记录数过滤变量

替换 for 循环以从具有多个列表的数据框中过滤值

如果包含*,则在列上过滤pandas数据框

在多列上过滤熊猫数据框的最快方法

如何从pyspark中的spark数据帧行转换具有多个键的JSON字符串?

使用列表选择具有多个条件的数据框记录

基于多个日期条件过滤数据框

如何过滤多个条件的数据框?

熊猫数据框过滤多个条件