如何将Spark数据帧转换为Pandas并返回Kedro？

德米特里·德里亚宾

我试图了解在Kedro中将一个节点发出的Spark数据帧转换为另一个节点的输入所需的Pandas的最佳方法，而无需创建冗余转换步骤。

德米特里·德里亚宾

Kedro目前支持以下两种策略：

使用转码功能

这需要一个定义两个DataCatalog条目同样的数据集，在一个共同的格式相同的文件工作（实木复合地板，JSON，CSV，等），您catalog.yml：

my_dataframe@spark:
  type: kedro.contrib.io.pyspark.SparkDataSet
  filepath: data/02_intermediate/data.parquet

my_dataframe@pandas:
  type: ParquetLocalDataSet
  filepath: data/02_intermediate/data.parquet

然后像这样在管道中使用它们：

Pipeline([
    node(my_func1, "spark_input", "my_dataframe@spark"),
    node(my_func2, "my_dataframe@pandas", "output"),
])

在这种情况下，应kedro了解这my_dataframe两种情况下的数据集相同，并正确解析节点的执行顺序。同时，kedro将使用SparkDataSet实现进行保存和ParquetLocalDataSet加载，因此第一个节点应输出pyspark.sql.DataFrame，而第二个节点将接收pandas.Dataframe。

使用Pandas进行Spark和Spark进行Pandas节点装饰

注意： Spark <-> Pandas内存转换因其内存需求而臭名昭著，因此仅当已知数据帧较小时，这才是可行的选择。

可以按照文档装饰节点：

from spark import get_spark
from kedro.contrib.decorators import pandas_to_spark

@pandas_to_spark(spark_session)
def my_func3(data):
    data.show() # data is pyspark.sql.DataFrame

甚至整个管道：

Pipeline([
    node(my_func4, "pandas_input", "some_output"),
    ...
]).decorate(pandas_to_spark)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-21

我来说两句

0 条评论

登录后参与评论

上一篇：在节点上MySQL vs JSON

如何将数组列表转换为 Spark 数据帧

如何将json文件转换为pandas数据帧

如何将for循环的结果转换为pandas数据帧？

如何将python dict转换为pandas数据帧

Pandas：如何将 MN 数据帧转换为 (MN)*1 数据帧

如何将字典的数据帧转换为数据帧？

如何将 spark Streaming 数据帧列转换为 Python 列表

如何将 Spark 数据帧列从 Array[Int] 转换为 linalg.Vector？

如何将Spark数据帧中的WrappedArray列转换为Strings？

如何将Spark R数据帧转换为R列表

如何将 RDD 转换为数据帧 Spark 2.4.5 Python

如何将Spark Streaming输出转换为数据帧或存储在表中

如何将时间序列数据集转换为 Pandas 数据帧

如何将数据帧转换为csv并保存以返回它？

如何将多索引数据转换为数据帧

如何将 Pandas 数据帧转换为具有聚合级别的嵌套命名元组

如何将 json 文本字符串从 API 请求转换为 Pandas 数据帧？

如何将 Pandas 数据帧转换为唯一结构化的嵌套 json

如何将多个元组转换为 Pandas 中的数据帧

如何将R数据帧转换为长格式

如何将数据帧转换为 DTM

如何将数据帧转换为时间序列？

如何将colSums转换为R到数据帧

如何将数据帧转换为从对到对？

R：如何将数据帧转换为nxn矩阵

如何将数组转换为数据帧？

如何将数据帧转换为时间序列？

如何将熊猫数据帧转换为NumPy数组？

如何将DFM转换为保留docvar的数据帧，但？

TOP 榜单

文章

如何将Spark数据帧转换为Pandas并返回Kedro？

如何将Spark数据帧转换为Pandas并返回Kedro？

使用转码功能

使用Pandas进行Spark和Spark进行Pandas节点装饰

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

用日期数据透视表和日期顺序查询

flask-admin 如何自定义删除按钮

在浏览器中请求URL时会发生什么？

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

为什么PlusShare.Builder setRecipients方法不起作用？

OS X-为什么我需要打开WiFi才能确定最近的位置

在Windows 7中无法删除文件（2）

android 背部按下

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

PyQt4.QtCore模块无法向sip模块注册

用白色图像隐藏Android Studio中的所有textView

为什么随机森林中的平均降低基尼系数取决于人口规模？

应用发明者仅从列表中选择一个随机项一次

正则表达式，用于查找所有以任何字母开头和数字开头的文件

ArgumentError：错误＃2109：在场景默认设置中未找到默认的帧标签

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

无法加载文件或程序集System.Runtime.CompilerServices.Unsafe

Jqgrid：多级别组摘要