比较两个Spark数据帧

普拉卡什

Spark数据框1-：

+------+-------+---------+----+---+-------+
|city  |product|date     |sale|exp|wastage|
+------+-------+---------+----+---+-------+
|city 1|prod 1 |9/29/2017|358 |975|193    |
|city 1|prod 2 |8/25/2017|50  |687|201    |
|city 1|prod 3 |9/9/2017 |236 |431|169    |
|city 2|prod 1 |9/28/2017|358 |975|193    |
|city 2|prod 2 |8/24/2017|50  |687|201    |
|city 3|prod 3 |9/8/2017 |236 |431|169    |
+------+-------+---------+----+---+-------+

Spark数据框2-：

+------+-------+---------+----+---+-------+
|city  |product|date     |sale|exp|wastage|
+------+-------+---------+----+---+-------+
|city 1|prod 1 |9/29/2017|358 |975|193    |
|city 1|prod 2 |8/25/2017|50  |687|201    |
|city 1|prod 3 |9/9/2017 |230 |430|160    |
|city 1|prod 4 |9/27/2017|350 |90 |190    |
|city 2|prod 2 |8/24/2017|50  |687|201    |
|city 3|prod 3 |9/8/2017 |236 |431|169    |
|city 3|prod 4 |9/18/2017|230 |431|169    |
+------+-------+---------+----+---+-------+

请找出适用于上述给定火花数据框1和火花数据框2的以下条件的火花数据框。

删除记录
新纪录
记录无变化
更改记录

这里的关键是“城市”，“产品”，“日期”。

我们需要不使用Spark SQL的解决方案。

狗

我不确定要查找已删除和已修改的记录，但是可以使用except函数来获取差异

df2.except(df1)

这将返回已在dataframe2中添加或修改的行或具有更改的记录。输出：

+------+-------+---------+----+---+-------+
|  city|product|     date|sale|exp|wastage|
+------+-------+---------+----+---+-------+
|city 3| prod 4|9/18/2017| 230|431|    169|
|city 1| prod 4|9/27/2017| 350| 90|    190|
|city 1| prod 3|9/9/2017 | 230|430|    160|
+------+-------+---------+----+---+-------+

您也可以尝试使用join和filter来获取更改和未更改的数据，如下所示：

df1.join(df2, Seq("city","product", "date"), "left").show(false)
df1.join(df2, Seq("city","product", "date"), "right").show(false)

希望这可以帮助！

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-8

我来说两句

0 条评论

登录后参与评论

Spark 比较两个数据帧并找到匹配计数

比较Spark中的两个数据帧

比较两个带有pySpark的大型数据帧

逐行比较两个熊猫数据帧

Python：根据两个条件比较数据帧

使用R比较两个不同行的数据帧

比较两个熊猫数据帧的行的最快方法？

比较两个熊猫数据帧的行？

使用 Pandas 比较两个数据帧以返回一个新的数据帧 - Python

比较Spark中两个RDD中的数据

比较Spark中两个相同结构的数据框

Python - 比较两个数据帧

比较两个数据帧Pyspark

比较来自两个不同 pyspark 数据帧的两对列以显示不同的数据

如何比较pyspark中两个不同数据帧中的两列

比较两个熊猫数据帧中数据的布尔逻辑

比较数据帧中的两个datetime列并返回一个标志

熊猫-比较两个Csv数据帧，但一个csv出现问题

如何比较来自两个不同数据帧的两个句子的函数中的处理时间减少？

比较两个数据帧并保留另一个数据帧的特定日期时间范围

比较两个熊猫数据帧中的值以保持运行计数

根据多个行条件比较两个不同的数据帧

如何根据日期时间列比较两个长度不等的数据帧

比较两个熊猫数据帧上的所有列以获得差异

比较两个熊猫数据帧中的值，与顺序无关

如何比较两个连续字段在数据帧中是否相同？

通过列值比较两个熊猫数据帧的行

如何比较基于列的两个不同大小的数据帧？

来自两个不同数据帧的列之间的成对比较

TOP 榜单

文章

比较两个Spark数据帧

比较两个Spark数据帧

IE 11中的FormData未定义

如何一次从多个文本框中获取值？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

OpenCv：改变 putText() 的位置

Redux动作正常，但减速器无效

如何从JavaScript中的MP3文件读取元数据属性？

如何使用Redux-Toolkit重置Redux Store

将加号/减号添加到jQuery菜单

OpenGL纹理格式的颜色错误

获取并汇总所有关联的数据

超过时间限制错误C ++

ActiveModelSerializer仅显示关联的ID

在交互式Python Shell中获得最后结果

如何开始为Ubuntu开发

去噪自动编码器和常规自动编码器有什么区别？

Excel 2016图表将增长与4个参数进行比较

算术中的c ++常量类型转换

使用因子时如何在y轴上的ggplot中插入count或％

TreeMap中的自定义排序

如何在R中转置数据

在 React Native Expo 中使用 react-redux 更改另一个键的值