如何比较pyspark中两个不同数据帧中的两列

用户8510536

我想将一个 dataframe1 中的“pitid”与另一个 dataframe2 的“pitid”进行比较,并想提取 dataframe1 中缺少的行。

数据框1:

 | id|marks|name|      pitid|
+---+-----+----+-----------+
|  1|    1|  FR| 1496875194|
|  2|    1|  US| -744211593|
|  5|    2|  DE|-1433680238|
|  4|    1|  DE| -366408878|
|  3|    3|  DE|  526286357|
+---+-----+----+-----------+

数据框2:

| id|marks|name|      pitid|
+---+-----+----+-----------+
|  1|    1|  FR| 1496875194|
|  7|    9|  HY| -816101137|
|  6|    5|  FE| 1044793796|
|  2|    1|  US| -744211593|
|  5|    2|  DE|-1433680238|
|  4|    1|  DE| -366408878|
|  3|    3|  DE|  526286357|
+---+-----+----+-----------+

预期输出:

|  7|    9|  HY| -816101137|
|  6|    5|  FE| 1044793796|
未定义的变量

您可以使用 joins

val diff = df2.join(df1,df2.col("pitid")!=df1.col("pitid"),"left")

如果所有列的值在两个数据框中都相同,那么您可以使用 except

df2.subtract(df1)

两者都将在 dataframe2 中提供记录,但不在 dataframe1 中

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

R-比较两列中不同长度的两个数据帧的相同值

如何比较两个连续字段在数据帧中是否相同?

VBA:如何比较两个不同工作表中的两列

从PySpark中的两个不同数据帧中减去列的值以找到RMSE

基于两个不同列中的两个条件的子集数据帧R

如何在python中不同大小的两个数据帧中比较值对?

如何比较基于列的两个不同大小的数据帧?

如何从R中的两个不同数据帧中添加两列,其中一列只是另一列的唯一值的子集

找出熊猫中两个不同数据帧的交集

比较两个带有pySpark的大型数据帧

比较数据帧中的两个datetime列并返回一个标志

如何比较PySpark中两个数据帧的计数?

匹配R中不同数据帧中两个列对的值

如何比较来自两个不同数据帧的两个句子的函数中的处理时间减少?

比较两个不同表中的两列?

如何使用mapply将函数应用于两个不同数据帧中的两个不同列

如何根据两个不同列之一中包含的元素拆分数据帧?

如何一次将两列与 python (pandas) 中的两个不同数据框进行比较?

比较两个不同 Excel 表中的两列

组合来自两个不同数据帧的两列以删除 Pandas 中的缺失值

如何比较两个不同表中的两列

比较并找到只有一个公共列但行数不同的两个数据帧中的额外行

如何比较两个不同数据框中的两列并计算出现次数

Pyspark - 从两个不同的数据帧中减去列

从 R 中的两个不同数据帧创建数组

比较来自不同数据帧的两个值,并基于熊猫中的添加值

比较两个具有差异长度的数据帧以找出特定列中的差异

如何比较两个不同的熊猫数据框中的两列?

比较来自两个不同 pyspark 数据帧的两对列以显示不同的数据