如何计算Python熊猫数据框中选择值的频率

用户名

我有一个包含两列的数据框，一列用于名称，一列用于字符串值。我试图按名称计算选择字符串值的频率。

我已经尝试过pandas.pivot_table和pandas.DataFrame.groupby，但是我想创建一个全新的数据框而不是聚合。

例如，我有一个数据框：

import pandas as pd
import numpy as np

data = np.array([['John', 'x'], ['John', 'x'], ['John', 'x'], ['John', 'y'], ['John', 'y'], ['John', 'a'], 
                 ['Will', 'x'], ['Will', 'z']])

df = pd.DataFrame(data, columns=['name','str_value'])
df

结果是：

   name      str_value
0  John              x
1  John              x
2  John              x
3  John              y
4  John              y
5  John              a
6  Will              x
7  Will              z

预期结果将是：

   name        x        y        z
0  John        3        2        0 
1  Will        1        0        1

另外：

   name        x        y        z
0  John     True     True    False 
1  Will     True    False     True

我只想选择x，y，z，然后根据返回值是0还是NaN返回True或False。

编辑：谢谢你的答案。这些效果很好，但是输出具有子组“ str_value”：

str_value     x      y      z
name
John       True   True  False
Will       True  False   True

有没有办法删除它，所以我在同一级别上有“名称”，“ x”，“ y”，“ z”？使用.reset_index（）我得到：

str_value  name     x      y      z
0          John  True   True  False
1          Will  True  False   True

我的索引名称现在是“ str_value”吗？我可以重命名或删除它吗？

亚历山大·B

你可以试试：

df.groupby(["name", "str_value"]).size().unstack()[['x', 'y', 'z']].gt(0)

说明：

每计数的发生name，并str_value用groupby和size：

print(df.groupby(["name", "str_value"]).size())
# John  a            1
#       x            3
#       y            2
# Will  x            1
#       z            1
# dtype: int64

与拆箱 unstack

print(df.groupby(["name", "str_value"]).size().unstack())
# str_value    a    x    y    z
# name
# John       1.0  3.0  2.0  NaN
# Will       NaN  1.0  NaN  1.0

选择所需的列：

print(df.groupby(["name", "str_value"]).size().unstack()[['x', 'y', 'z']])
# str_value    x    y    z
# name
# John       3.0  2.0  NaN
# Will       1.0  NaN  1.0

将大于0的值与进行比较gt：

result = df.groupby(["name", "str_value"]).size().unstack()[['x', 'y', 'z']].gt(0)
print(result)
# str_value     x      y      z
# name
# John       True   True  False
# Will       True  False   True

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-20

我来说两句

0 条评论

登录后参与评论

上一篇：如何迅速将核心数据管理对象数组转换为“可识别”列表？（Xcode 11，Beta 5）

如何计算Python熊猫数据框中选择值的频率

如何计算Python熊猫数据框中选择值的频率

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序