如何将500GB SQL表转换为Apache Parquet？

ShanZhengYang 发表于 Dev

22

ShanZhengYang

也许这有据可查，但是我却很困惑如何执行此操作（有许多Apache工具）。

创建SQL表时，使用以下命令创建表：

CREATE TABLE table_name(
   column1 datatype,
   column2 datatype,
   column3 datatype,
   .....
   columnN datatype,
   PRIMARY KEY( one or more columns )
);

如何将这个存在的表转换为Parquet？该文件写入磁盘了吗？如果原始数据为几GB，则需要等待多长时间？

我可以将原始原始数据格式化为Parquet格式吗？

利普赖斯

Apache Spark可用于执行以下操作：

1.load your table from mysql via jdbc
2.save it as a parquet file

例：

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.jdbc("YOUR_MYSQL_JDBC_CONN_STRING",  "YOUR_TABLE",properties={"user": "YOUR_USER", "password": "YOUR_PASSWORD"})
df.write.parquet("YOUR_HDFS_FILE")

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-4

我来说两句

0 条评论

登录后参与评论

上一篇：等待Android模拟器运行，然后执行下一个Shell命令？

相关文章

如何将JSON结果转换为Parquet？

如何将 Parquet 转换为 Spark Delta Lake？

Parquet-MR AvroParquetWriter-如何将数据转换为Parquet（具有特定映射）

将ORC文件转换为Parquet文件

如何将HBase表以Parquet格式移动到HDFS？

将pandas df转换为parquet-file-bytes-object

如何在 Julia 中将 CSV 转换为 Parquet

Spark SQL如何读取Parquet分区文件

如何将MS SQL表转换为DynamoDB表？

如何使用 BigQuery 和 Apache Beam 将 SQL 表转换为行序列列表？

Avro 转换保存 Parquet

Hive Parquet 表评论

Spark导入Parquet文件将字符串转换为字节数组

使用dask将单个16M行csv并行转换为Parquet

将NaN浮点数转换为Parquet格式的其他类型

将JSON转换为Parquet并将对象分类到文件夹中

将HDF5转换为Parquet而不加载到内存中

使用 AWS Glue 将 AWS Redshift 转换为 S3 Parquet 文件

PySpark将空字符串转换为null并用Parquet编写

将 Azure SQL 数据库从 P15 (2TB) 降级到 P4 (500GB)

如何在R中读取Parquet并将其转换为R DataFrame？

Avro -> Parquet -> Spark SQL

以 Parquet 格式将 GCP Cloud SQL PostgreSQL 导出到 GCS

在Amazon EMR中将JSON转换为Parquet

将SQL表转换为JSON

将SQL表数据转换为JSON

将Json转换为SQL表

将XML转换为SQL Server表

在清除 Azure SQL 表中的数据之前，如何将数据存储在“Azure Datalake Gen2 blob 存储”中的 Parquet 或 Jason 文件中

TOP 榜单

文章

热门标签

归档