熊猫多列相交

Python Spark

我有一个数据框,如下所示:

data={'NAME':['JOHN','MARY','CHARLIE'],
  'A':[[1,2,3],[2,3,4],[3,4,5]],
  'B':[[2,3,4],[3,4,5],[4,5,6]],
    'C':[[2,4],[3,4],[6,7]]  }
df=pd.DataFrame(data)
df=df[['NAME','A','B','C']]
NAME          A          B            C
0   JOHN    [1, 2, 3]   [2, 3, 4]   [2, 4]
1   MARY    [2, 3, 4]   [3, 4, 5]   [3, 4]
2   CHARLIE [3, 4, 5]   [4, 5, 6]   [6, 7]

我需要所有列A,B,C的交集。

我尝试了以下代码,但没有成功:

df['D']=list(set(df['A'])&set(df['B'])&set(df['C']))

所需的输出如下:

    NAME            A         B         C       D
0   JOHN    [1, 2, 3]   [2, 3, 4]   [2, 4]  [2]
1   MARY    [2, 3, 4]   [3, 4, 5]   [3, 4]  [3, 4]
2   CHARLIE [3, 4, 5]   [4, 5, 6]   [6, 7]  []
穆罕默德·阿里·贾马维

选项1:

相交语法set(A)&set(B)..是正确的,但是您需要对其进行一些调整以使其适用于数据框,如下所示:

df.assign(D=df.transform(
     lambda x: list(set(x.A)&set(x.B)&set(x.C)),
     axis=1))

您可以执行以下操作:

选项2:

df.assign(D=df.transform(
    lambda x: list(set(x.A).intersection(set(x.B)).intersection(set(x.C))),
    axis=1))

要么

df.assign(D=df.apply(
    lambda x: list(set(x.A).intersection(set(x.B)).intersection(set(x.C))),
    axis=1))

选项3:

df.assign(D=df.transform(
    lambda x: list(reduce(set.intersection, map(set,x.tolist()[1:]))),
    axis=1))

这是什么:

  • 使用set(x.A).intersection(set(x.B))..每一行的链条获取交点
  • 将结果转换为列表
  • 对数据框中的每一行执行此操作

执行细节:

In [76]: df.assign(D=df.transform(
    ...:     lambda x: list(set(x.A).intersection(set(x.B)).intersection(set(x.C))),
    ...:     axis=1))
Out[76]: 
      NAME          A          B       C       D
0     JOHN  [1, 2, 3]  [2, 3, 4]  [2, 4]     [2]
1     MARY  [2, 3, 4]  [3, 4, 5]  [3, 4]  [3, 4]
2  CHARLIE  [3, 4, 5]  [4, 5, 6]  [6, 7]      []

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

TOP 榜单

热门标签

归档