pyspark加入两个rdds并展平结果

J Doe 发表于 Dev

杜伊

环境是pyspark，Spark版本2.2。

我们有两个rddstest1和test2，以下是示例数据

test1 = [('a', 20), ('b', 10), ('c', 2)]
test2 = [('a', 2), ('b', 3)]

现在我们想生成output1如下，任何帮助都将受到赞赏。

[('a', 20, 2), ('b', 10, 3)]

保利

您可以通过简单地join调用map平坦化值来完成此操作。

test1.join(test2).map(lambda (key, values): (key,) + values).collect()
#[('a', 20, 2), ('b', 10, 3)]

解释一下，结果join如下：

test1.join(test2).collect()
#[('a', (20, 2)), ('b', (10, 3))]

这几乎是所需的输出，但是您希望将结果展平。我们可以通过调用map并tuple以所需格式返回一个新值来完成此操作。该语法(key,)将仅使用键创建一个元素元组，并将其添加到值中。

您还可以使用DataFrame API，方法pyspark.sql.DataFrame.toDF()是将RDD转换为DataFrames：

test1.toDF(["key", "value1"]).join(test2.toDF(["key", "value2"]), on="key").show()
#+---+------+------+
#|key|value1|value2|
#+---+------+------+
#|  b|    10|     3|
#|  a|    20|     2|
#+---+------+------+

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-12

我来说两句

0 条评论

登录后参与评论

上一篇：使用具有Excel工作表数据的熊猫获取基于用户ID的数据？

如何展平两个结果

加入两个表并获得结果

组合两个def后展平类型

BigQuery：展平两个重复的列

将具有多个值成分的两个RDD连接起来并展平结果

对两个结果词pyspark

如何基于同一字段加入两个rdds？

加入后停止pyspark返回两个“ on”列

pyspark - 加入两个 RDD - 缺少第三列

如何在 PySpark 中加入两个 RDD？

试图在SQL中加入两个选择的结果

如何加入两个比较不同结果的查询？

通过加入两个搜索结果重命名文件

laravel 在结果上加入两个表和 foreach

加入两个表后立即查询结果

PHP / MySQL-加入/联合两个表的结果

你如何展平 numpy 数组的最后两个维度？

合并列表中实体的两个属性，并使用Linq对其进行展平

将两个向量展平为 1 张地图的好方法？

将两个列表展平为String .csv样式格式

展平具有不同数据类型的两个JSON并将它们联接

使用Java 8 lambda /转换来合并和展平两个Map

想要加入两个集合，结果应该从两个集合中进行过滤

加入两个NSBezierPaths

加入两个RDD

加入两个集合

加入两个INSERT INTO

加入两个元组

生成两个数字之间的值并展平表格

TOP 榜单

文章

pyspark加入两个rdds并展平结果

pyspark加入两个rdds并展平结果

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath