如何将500GB SQL表转换为Apache Parquet?

ShanZhengYang

也许这有据可查,但是我却很困惑如何执行此操作(有许多Apache工具)。

创建SQL表时,使用以下命令创建表:

CREATE TABLE table_name(
   column1 datatype,
   column2 datatype,
   column3 datatype,
   .....
   columnN datatype,
   PRIMARY KEY( one or more columns )
);

如何将这个存在的表转换为Parquet?该文件写入磁盘了吗?如果原始数据为几GB,则需要等待多长时间?

我可以将原始原始数据格式化为Parquet格式吗?

利普赖斯

Apache Spark可用于执行以下操作:

1.load your table from mysql via jdbc
2.save it as a parquet file

例:

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.jdbc("YOUR_MYSQL_JDBC_CONN_STRING",  "YOUR_TABLE",properties={"user": "YOUR_USER", "password": "YOUR_PASSWORD"})
df.write.parquet("YOUR_HDFS_FILE")

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章