如何使用pyarrow.read_csv添加/更改列名称？

azo91 发表于 Dev

偶氮91

我目前正在尝试将没有任何标题的大csv文件（50GB +）导入到pyarrow表中，总体目标是将此文件导出为Parquet格式，并进一步在Pandas或Dask DataFrame中进行处理。如何在pyarrow中为csv文件指定列名和列dtype？

我已经考虑过将标头附加到csv文件中。这将强制完全重写文件，这看起来像是不必要的开销。据我所知，pyarrow提供了用于定义特定列的dtypes的架构，但是在将csv文件转换为箭头表时，文档缺少这样做的具体示例。

想象一下，此csv文件仅具有一个简单示例，即“ A”和“ B”两列。我当前的代码如下所示：

import numpy as np
import pandas as pd
import pyarrow as pa
df_with_header = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})

print(df_with_header)
df_with_header.to_csv("data.csv", header=False, index=False)

df_without_header = pd.read_csv('data.csv', header=None)
print(df_without_header)
opts = pa.csv.ConvertOptions(column_types={'A': 'int8',
                                            'B': 'int8'})

table = pa.csv.read_csv(input_file = "data.csv", convert_options = opts)
print(table)

如果我打印出最终表，它不会更改列名。

pyarrow.Table
1: int64
3: int64

现在如何更改已加载的列名和dtypes？例如，是否还可能传递包含名称及其dtype的字典？

0x26分辨率

您可以为列指定类型替代：

    fp = io.BytesIO(b'one,two,three\n1,2,3\n4,5,6')
    fp.seek(0)
    table = csv.read_csv(
        fp,
        convert_options=csv.ConvertOptions(
            column_types={
                'one': pa.int8(),
                'two': pa.int8(),
                'three': pa.int8(),
            }
        ))

但是在您的情况下，您没有标题，据我所知，箭头不支持此用例：

    fp = io.BytesIO(b'1,2,3\n4,5,6')
    fp.seek(0)
    table = csv.read_csv(
        fp,
        parse_options=csv.ParseOptions(header_rows=0)
    )

这引起了：

pyarrow.lib.ArrowInvalid: header_rows == 0 needs explicit column names

代码在这里：https : //github.com/apache/arrow/blob/3cf8f355e1268dd8761b99719ab09cc20d372185/cpp/src/arrow/csv/reader.cc#L138

这类似于这个问题的Apache箭头-读取CSV文件

在下一版本中应该对此进行修复：https : //github.com/apache/arrow/pull/4898

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-18

我来说两句

0 条评论

登录后参与评论

上一篇：如何从表中获取随机行值并将其存储在数组中以分别调用

TOP 榜单

文章

如何使用pyarrow.read_csv添加/更改列名称？

如何使用pyarrow.read_csv添加/更改列名称？

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用