熊猫从列表中设置dtype

安东尼

我正在读取一个大文件并保存在内存中。我需要为数据框中的每一列指定dtype。我想从已经为dtype创建的列表中进行操作。

import pandas as pd

headers=['Record Identifier','Respondent_ID','Agency Code','Loan Type','Property Type','Loan Purpose','Owner Occupancy',
         'Loan Amount','Preapprovals','Type of Action Taken','Metropolitan Statistical Area/Metropolitan Division','State Code',
         'County Code','Census Tract','Applicant Ethnicity','Co-applicant Ethnicity','Applicant Race: 1','Applicant Race: 2',
         'Applicant Race: 3','Applicant Race: 4','Applicant Race: 5','Co-applicant Race: 1','Co-applicant Race: 2',
         'Co-applicant Race: 3','Co-applicant Race: 4','Co-applicant Race: 5','Applicant Sex','Co-applicant Sex',
         'Applicant Income','Type of Purchaser','Denial Reason: 1','Denial Reason: 2','Denial Reason: 3','Rate Spread',
         'HOEPA Status','Lien Status','Population','Minority Population %','FFIEC Median Family Income',
         'Tract to MSA/MD Median Family Income %','Number of Owner Occupied Units','Number of 1- to 4-Family units']


dtypes=['int64','object','int64','int64','int64','int64','int64','int64','int64','int64','object','object','object','object',
        'int64','int64','int64','int64','int64','int64','int64','int64','int64','int64','int64','int64','int64','int64',
        'object','int64','int64','int64','int64','object','object','object','object','float64','int64','float64','int64',
        'int64']


df = pd.read_csv('2017_lar.txt', sep="|", header=None, names=headers, dtype=dtypes, nrows=100)

print(df)

错误：TypeError：数据类型无法理解

用户名

您使用的参数不正确。您只能指定一个类型名称，也可以指定一个dict将列标题与类型匹配的名称。

文档中明确涵盖了这一点：

dtype：输入名称或列的字典-> type，可选

数据或列的数据类型。例如{'a'：np.float64，'b'：np.int32，'c'：'Int64'}使用str或object以及合适的na_values设置来保留而不解释dtype。如果指定了转换器，则将它们应用于dtype转换的INSTEAD。

由于您要传递列表，因此将整个列表假定为dtype，这是无法理解的。

这是正确的用法。

import io
import pandas as pd

i = io.StringIO("""
1|2|3
4|5|6
7|8|9
""")

headers = ['a', 'b', 'c']
dtypes = ['int64', 'object', 'int']

df = pd.read_csv(i, header=None, names=headers, sep='|', dtype=dict(zip(headers, dtypes)))

>>> df
   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9

>>> df.dtypes
a     int64
b    object
c     int32
dtype: object

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-18

我来说两句

0 条评论

登录后参与评论

上一篇：如何从表中获取随机行值并将其存储在数组中以分别调用

检查系列的dtype是否属于熊猫中的dtype列表

如何从dtype是列表的熊猫系列中删除NaN？

熊猫-如果dtype列表（对象）的列中的值具有特定值，则查找行

熊猫从列表中设置dtype

熊猫从列表中设置dtype

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID