我目前正在尝试将没有任何标题的大csv文件(50GB +)导入到pyarrow表中,总体目标是将此文件导出为Parquet格式,并进一步在Pandas或Dask DataFrame中进行处理。如何在pyarrow中为csv文件指定列名和列dtype?
我已经考虑过将标头附加到csv文件中。这将强制完全重写文件,这看起来像是不必要的开销。据我所知,pyarrow提供了用于定义特定列的dtypes的架构,但是在将csv文件转换为箭头表时,文档缺少这样做的具体示例。
想象一下,此csv文件仅具有一个简单示例,即“ A”和“ B”两列。我当前的代码如下所示:
import numpy as np
import pandas as pd
import pyarrow as pa
df_with_header = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
print(df_with_header)
df_with_header.to_csv("data.csv", header=False, index=False)
df_without_header = pd.read_csv('data.csv', header=None)
print(df_without_header)
opts = pa.csv.ConvertOptions(column_types={'A': 'int8',
'B': 'int8'})
table = pa.csv.read_csv(input_file = "data.csv", convert_options = opts)
print(table)
如果我打印出最终表,它不会更改列名。
pyarrow.Table
1: int64
3: int64
现在如何更改已加载的列名和dtypes?例如,是否还可能传递包含名称及其dtype的字典?
您可以为列指定类型替代:
fp = io.BytesIO(b'one,two,three\n1,2,3\n4,5,6')
fp.seek(0)
table = csv.read_csv(
fp,
convert_options=csv.ConvertOptions(
column_types={
'one': pa.int8(),
'two': pa.int8(),
'three': pa.int8(),
}
))
但是在您的情况下,您没有标题,据我所知,箭头不支持此用例:
fp = io.BytesIO(b'1,2,3\n4,5,6')
fp.seek(0)
table = csv.read_csv(
fp,
parse_options=csv.ParseOptions(header_rows=0)
)
这引起了:
pyarrow.lib.ArrowInvalid: header_rows == 0 needs explicit column names
代码在这里:https : //github.com/apache/arrow/blob/3cf8f355e1268dd8761b99719ab09cc20d372185/cpp/src/arrow/csv/reader.cc#L138
这类似于这个问题的Apache箭头-读取CSV文件
在下一版本中应该对此进行修复:https : //github.com/apache/arrow/pull/4898
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句