读取镶木地板文件时,是否可以更改列的数据类型?我正在使用spark_read_parquet
Sparklyr中的函数,但是它没有columns
选项(从中spark_read_csv
)来更改它。
在csv文件中,我将执行以下操作:
data_tbl <- spark_read_csv(sc, "data", path, infer_schema = FALSE, columns = list_with_data_types)
如何处理镶木地板文件类似的东西?
仅当读取在变量类型上没有内置元数据的数据格式时,指定数据类型才有意义。csv或fwf文件就是这种情况,它们最多在第一行中具有变量名。因此,此类文件的读取功能具有该功能。
对于内置变量类型的数据格式(例如Parquet(或R中的.Rds和.Rds)),这种功能没有意义。
在这种情况下,您应该:
a)将Parquet文件读入Spark b)进行必要的数据转换c)将转换后的数据保存到Parquet文件中,覆盖以前的文件
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句