遍历大熊猫数据帧字典并进行修改的最佳实践是什么？

瑞安：

我有一个DataFrames字典，其中的键指向数据的年份。我想遍历字典并修改DataFrames。我同时修改了列名称和dfs的内容。

for year, df in df_data.items():
    cols = df .columns
    new_cols = [re.sub(r'\s\d{4}\-\d{2}', '', c) for c in cols]
    df.columns = new_cols

for year, df in df_data.items():
    df['Date'] = pd.to_datetime(df['Date'], infer_datetime_format=True)
    df = df.drop_duplicates(subset='Id', keep='first')

有人可以向我解释这样做的行为吗？特别是，如何将dfs存储在内存中以及为何对列进行重命名而对内容进行修改却不起作用。另外，是否存在通过复制df然后将其替换为dict索引或不断对df_data [year]参考进行更改的最佳方法？

戴夫：

如上面的@ juanpa.arrivillaga所述，drop_duplicates 返回一个数据框，您将其分配给局部变量df。考虑以下示例：

a = [0, 1]
for b in a:
    print(f'b: {b}')
    b = 2
    print(f'b: {b}') 

print(f'a: {a}')

这是输出：

b: 0
b: 2
b: 1
b: 2
a: [0, 1]

您可以看到为本地var b分配了value 2，但是a在循环完成之后该列表未更改。这是因为b是对列表的引用，而不是列表本身。分配b = 2导致b更改为对整数的引用2，但不会导致引用的列表项b更改为对整数的引用2。在第一个循环的开始，引用看起来像这样：

b -> a[0] -> the integer 0

b = 2在此分配结果：

a[0] -> the integer 0
   b -> the integer 2

不是这个：

b -> a[0] -> the integer 2

要循环修改对象，您必须仅使用适当的方法，或者必须直接引用该对象：

for year in df_data.keys():
    cols = df[year].columns
    new_cols = [re.sub(r'\s\d{4}\-\d{2}', '', c) for c in cols]
    df[year].columns = new_cols

for year in df_data.keys():
    df[year]['Date'] = pd.to_datetime(df[year]['Date'], infer_datetime_format=True)
    df[year] = df[year].drop_duplicates(subset='Id', keep='first')

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-06-5

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

遍历大熊猫数据帧字典并进行修改的最佳实践是什么？

遍历大熊猫数据帧字典并进行修改的最佳实践是什么？

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID