Sparklyr-如何更改镶木地板数据类型

伊戈尔

读取镶木地板文件时,是否可以更改列的数据类型?我正在使用spark_read_parquetSparklyr中函数,但是它没有columns选项(从中spark_read_csv)来更改它。

csv文件中,我将执行以下操作:

data_tbl <- spark_read_csv(sc, "data", path, infer_schema = FALSE, columns = list_with_data_types)

如何处理镶木地板文件类似的东西

卢卡斯

仅当读取在变量类型上没有内置元数据的数据格式时,指定数据类型才有意义。csv或fwf文件就是这种情况,它们最多在第一行中具有变量名。因此,此类文件的读取功能具有该功能。

对于内置变量类型的数据格式(例如Parquet(或R中的.Rds和.Rds)),这种功能没有意义。

在这种情况下,您应该:

a)将Parquet文件读入Spark b)进行必要的数据转换c)将转换后的数据保存到Parquet文件中,覆盖以前的文件

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

SparkR和Sparklyr之间导入镶木地板文件所花费的时间差

更改列数据类型以使用Sparklyr进行分解

镶木地板数据类型问题中带有 alluxio 存储的 Hive Metastore

在sparklyr中更改JVM时区

如何使用Sparklyr包来平整不同数据类型的数据?

如何使用Pyarrow更改镶木地板文件中的列名?

如何阅读箭头镶木地板键值元数据?

如何连接两个镶木地板数据集?

如何从Amazon Athena查询镶木地板数据?

使用Sparklyr在R中创建懒惰Spark读写木地板作业

如何在Sparklyr中使用R函数

如何使用Sparklyr过滤部分匹配

如何在 sparklyr 包中运行 FPGrowth

如何创建从Postgres的管道镶木地板?

Sparklyr-更改Spark数据框中的列名称

如何将记录从镶木地板写入另一个镶木地板?

如何形成基于词汇表的 tfidf sparklyr 数据框

如何使用Sparklyr将数据存储在Spark集群中?

如何在 sparklyr 中重新分区数据框

如何在Sparklyr中查找缺少数据的列

如何从命令行或Spark Shell显示镶木地板文件的方案(包括类型)?

如何使用动态索引和类型将镶木地板文件写入弹性搜索

如何在Apache Spark中处理更改镶木地板架构

根据列数据类型对 spark 数据帧(在 sparklyr 中)进行子集化的最佳方法是什么

如何使用Spark将镶木地板数据转换为案例类?

如何在 Azure 数据工厂中将 csv 转换为镶木地板

如何基于表中的数据获取镶木地板文件名

如何指定将镶木地板读入 Dask 数据帧的分区数?

如何在python中的S3中从pandas数据帧写入镶木地板文件