将熊猫数据框列中的单词按另一列分组以获得频率/计数

Ricky 发表于 Dev

瑞奇

我有一个熊猫数据框，看起来像：

    location       skills
0   Washington     excel
1   Chicago     
2   West Lebanon   r excel
3   Midland     
4   Washington     sql java
5   Cincinnati     sql java scala python.
6   Dover          sas sql r spss
7   Dover          sas c++ spss

当然还有更多的行。我想获取每个位置的“技能”列中每个唯一字符串的频率。

例如，对于位置多佛，我希望sas的频率为2，spss：2，r：1，excel：0，java：0等等......我将如何去做？

平方

用于str.cat组合列。然后拆分使用pd.value_counts

pd.value_counts(df.skills.str.cat(sep=' ').split())

sql        3
excel      2
java       2
spss       2
sas        2
r          2
scala      1
python.    1
c++        1
dtype: int64

为了得到这个 location

f = lambda x: pd.value_counts(x.str.cat(sep=' ').split())
df.groupby('location').skills.apply(f).unstack(fill_value=0)

              c++  excel  java  python.  r  sas  scala  spss  sql
location                                                         
Cincinnati      0      0     1        1  0    0      1     0    1
Dover           1      0     0        0  1    2      0     2    1
Washington      0      1     1        0  0    0      0     0    1
West Lebanon    0      1     0        0  1    0      0     0    0

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-05-31

我来说两句

0 条评论

登录后参与评论

上一篇：为什么kibana的可视化图表中的唯一计数不正确？

获取按另一列分组的多列的频率计数

按一列或另一列对熊猫数据框进行分组

Python数据框如何按一列分组并获得另一列的总和

将熊猫数据框列中的单词按另一列分组以获得频率/计数

将熊猫数据框列中的单词按另一列分组以获得频率/计数

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序