Pyspark：从 AWS:S3 存储桶读取数据并写入 postgres 表

杰西恩

我正在尝试从 S3 存储桶中读取数据并希望将其写入/加载到 postgres 表中。我的代码是-

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Read Multiple CSV Files').getOrCreate()
path = ['C://Projects/Sandbox/file2.csv']
files = spark.read.csv(path, sep=',',inferSchema=True, header=True)
df1 = files.toPandas()

from pyspark.sql import DataFrameWriter
my_writer = DataFrameWriter(df1)

mode = "overwrite"
url = ""
properties = {"user": "","password": "","driver": "org.postgresql.Driver"}
my_writer.write.jdbc(url=url, table="test_result", mode=mode, properties=properties)

在线的

my_writer = DataFrameWriter(files)

它给出了错误 -

AttributeError: 'DataFrameWriter' 对象没有属性 'write'

在线，当 DataFrameWriter() 的参数传递为 -

my_writer = DataFrameWriter(df1)

AttributeError：“DataFrame”对象没有属性“sql_ctx”

有什么/任何地方我做错了吗？

舒巴姆·夏尔马

无需创建新实例DataFrameWriter，spark 数据框已经使用该write属性公开了此接口。您可以使用此属性通过jdbc连接导出 csv 数据

# Read the data form source
files = spark.read.csv(path, sep=',', inferSchema=True, header=True)

# Write the data to destination using jdbc connection
files.write.jdbc(url=url, table="test_result", mode=mode, properties=properties)

如何修复现有代码？

创建一个新的DataFrameWriter使用实例，files然后使用连接my_writer.jdbc来导出数据jdbc

my_writer = DataFrameWriter(files)
my_writer.jdbc(url=url, table="test_result", mode=mode, properties=properties)
#      ^^^^^^ No need to use .write attribute

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2022-03-24

我来说两句

0 条评论

登录后参与评论

上一篇：有没有办法根据Excel中相邻列中非空白单元格的计数来填充一列？

Pyspark：从 AWS:S3 存储桶读取数据并写入 postgres 表

Pyspark：从 AWS:S3 存储桶读取数据并写入 postgres 表

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接