具有 value_counts 的 Pandas groupby 并在新数据框中生成列

杰克莫里斯

给定一个带有特定事件“名称”的数据框，它发生的年份及其类型，如下所示：

index  name  year  type  extracolumns
  0    'a'   2014  'X'     stuff
  1    'a'   2014  'X'     stuff
  2    'a'   2014  'Y'     stuff
  3    'a'   2014  'Y'     stuff
  4    'a'   2015  'X'     stuff
  5    'a'   2015  'X'     stuff
  6    'a'   2015  'Y'     stuff
  7    'b'   2014  'X'     stuff
  8    'b'   2015  'Y'     stuff
  9    'c'   2014  'Z'     stuff

我想要一个由事件的“名称”索引的数据框，它按年份对每个“类型”进行计数。理想情况下，它看起来像：

index  type_X_2014  type_Y_2014  type_Z_2014  type_X_2015  type_Y_2015  type_Z_2015
 'a'        2            2            0             2           1           0
 'b'        1            0            0             0           1           0
 'c'        0            0            1             0           0           0

这应该有 nunique(types)*nunique(years) 列。显然，这将涉及 groupby 和一些 value_counts。有没有一种方法可以动态完成此操作，而无需对列名进行硬编码？非常感谢。

忘了它

您可以使用pd.crosstab创建频率表：

import sys
import pandas as pd
pd.options.display.width = sys.maxsize
df = pd.DataFrame({'extracolumns': ['stuff', 'stuff', 'stuff', 'stuff', 'stuff', 'stuff', 'stuff', 'stuff', 'stuff', 'stuff'], 'index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9], 'name': ['a', 'a', 'a', 'a', 'a', 'a', 'a', 'b', 'b', 'c'], 'type': ['X', 'X', 'Y', 'Y', 'X', 'X', 'Y', 'X', 'Y', 'Z'], 'year': [2014, 2014, 2014, 2014, 2015, 2015, 2015, 2014, 2015, 2014]}) 

result = pd.crosstab(df['name'], [df['year'], df['type']], dropna=False)
result.columns = ['type_{}_{}'.format(typ,year) for year,typ in result.columns]

print(result)

产量

      type_X_2014  type_Y_2014  type_Z_2014  type_X_2015  type_Y_2015  type_Z_2015
name                                                                              
a               2            2            0            2            1            0
b               1            0            0            0            1            0
c               0            0            1            0            0            0

如果您不想对列名进行硬编码，但您知道列的位置（序数索引），那么您可以使用iloc按位置引用列：

result = pd.crosstab(df.iloc[:,1], [df.iloc[:, 2], df.iloc[:, 3]])

即使所有频率都为零，仍保留列的dropna=False原因crosstab。这确保了有nunique(types)*nunique(years)列——包括type_Z_2015.

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-13

我来说两句

0 条评论

登录后参与评论

上一篇：从图像的右中心使用 jquery 的图像幻灯片

具有 value_counts 的 Pandas groupby 并在新数据框中生成列

具有 value_counts 的 Pandas groupby 并在新数据框中生成列

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID