将熊猫数据框列中的单词按另一列分组以获得频率/计数

瑞奇

我有一个熊猫数据框,看起来像:

    location       skills
0   Washington     excel
1   Chicago     
2   West Lebanon   r excel
3   Midland     
4   Washington     sql java
5   Cincinnati     sql java scala python.
6   Dover          sas sql r spss
7   Dover          sas c++ spss

当然还有更多的行。我想获取每个位置的“技能”列中每个唯一字符串的频率。

例如,对于位置多佛,我希望sas的频率为2,spss:2,r:1,excel:0,java:0等等......我将如何去做?

平方

用于str.cat组合列。然后拆分使用pd.value_counts

pd.value_counts(df.skills.str.cat(sep=' ').split())

sql        3
excel      2
java       2
spss       2
sas        2
r          2
scala      1
python.    1
c++        1
dtype: int64

为了得到这个 location

f = lambda x: pd.value_counts(x.str.cat(sep=' ').split())
df.groupby('location').skills.apply(f).unstack(fill_value=0)

              c++  excel  java  python.  r  sas  scala  spss  sql
location                                                         
Cincinnati      0      0     1        1  0    0      1     0    1
Dover           1      0     0        0  1    2      0     2    1
Washington      0      1     1        0  0    0      0     0    1
West Lebanon    0      1     0        0  1    0      0     0    0

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

获取按另一列分组的多列的频率计数

按一列或另一列对熊猫数据框进行分组

Python数据框如何按一列分组并获得另一列的总和

将数据框按列分组,并在另一列中压缩字符串

Python:基于某些行appers的pandas数据框中的两列(变量)获得频率计数

如何在pandas数据框列中获得以逗号分隔的值的频率计数?

pandas 数据框按列分组,并根据计数分别更新另一列的行

熊猫:将一列中的单词数按另一列的值排序

如何删除熊猫数据框列中与另一列中的单词匹配的单词

熊猫数据框:按两列分组,然后对另一列取平均值

在熊猫数据框中按另一列分组后如何插入缺失的日期并向前填充列

如何按熊猫数据框列中的前 2 个单词分组并计数?

熊猫:按日期将一列分组,并在另一列中计算特定值的累计数量

对熊猫数据框中的一列求和,其中一列满足条件,但另一列分组

计算数据框列中列表项的出现次数,按另一列分组

熊猫:按多列分组,将一列串联,同时添加另一列

尝试按 R 中数据框中每列的组获取频率计数和百分比

按一列将Pandas数据框分组,然后根据另一列删除行

按变量索引将一列数据框分组

将字符串列按熊猫中的另一列分组

如果一列的字符串包含熊猫数据框中另一列的单词,如何删除整行

熊猫按一列分组将另一列的值连接为定界列表

如何获取熊猫中每对唯一的一对列的列值的频率计数?

对按另一列分组的熊猫数据框列值求和,然后用总和更新行并删除重复项

如何获得按第二个变量分组的单词频率计数(Python)

熊猫:按两列分组以获得另一列的总和

熊猫DataFrame列中的值的频率计数

如何获取熊猫中的列的频率计数?

按一列过滤熊猫数据框,并在另一列中获取值的总和