我有一个包含两列的数据框,一列用于名称,一列用于字符串值。我试图按名称计算选择字符串值的频率。
我已经尝试过pandas.pivot_table和pandas.DataFrame.groupby,但是我想创建一个全新的数据框而不是聚合。
例如,我有一个数据框:
import pandas as pd
import numpy as np
data = np.array([['John', 'x'], ['John', 'x'], ['John', 'x'], ['John', 'y'], ['John', 'y'], ['John', 'a'],
['Will', 'x'], ['Will', 'z']])
df = pd.DataFrame(data, columns=['name','str_value'])
df
结果是:
name str_value
0 John x
1 John x
2 John x
3 John y
4 John y
5 John a
6 Will x
7 Will z
预期结果将是:
name x y z
0 John 3 2 0
1 Will 1 0 1
另外:
name x y z
0 John True True False
1 Will True False True
我只想选择x,y,z,然后根据返回值是0还是NaN返回True或False。
编辑:谢谢你的答案。这些效果很好,但是输出具有子组“ str_value”:
str_value x y z
name
John True True False
Will True False True
有没有办法删除它,所以我在同一级别上有“名称”,“ x”,“ y”,“ z”?使用.reset_index()我得到:
str_value name x y z
0 John True True False
1 Will True False True
我的索引名称现在是“ str_value”吗?我可以重命名或删除它吗?
你可以试试:
df.groupby(["name", "str_value"]).size().unstack()[['x', 'y', 'z']].gt(0)
说明:
print(df.groupby(["name", "str_value"]).size())
# John a 1
# x 3
# y 2
# Will x 1
# z 1
# dtype: int64
unstack
print(df.groupby(["name", "str_value"]).size().unstack())
# str_value a x y z
# name
# John 1.0 3.0 2.0 NaN
# Will NaN 1.0 NaN 1.0
print(df.groupby(["name", "str_value"]).size().unstack()[['x', 'y', 'z']])
# str_value x y z
# name
# John 3.0 2.0 NaN
# Will 1.0 NaN 1.0
gt
:result = df.groupby(["name", "str_value"]).size().unstack()[['x', 'y', 'z']].gt(0)
print(result)
# str_value x y z
# name
# John True True False
# Will True False True
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句