Pandas：如果字符串存在于几列中的任何一列中，我想对计数求和，并将此计数添加到具有搜索词的另一个数据框中

本·塔普斯科特

我有一个包含几列标签（字符串）的视频数据框，如下所示：

import pandas as pd
videos = [(1, 'cool video','drama','horror'), (2, 'great video','sports','drama'), (3,'super video','comedy','horror')]
df = pd.DataFrame(data=videos, columns=['video_id', 'title','tag_1','tag_2'])

    video_id    title       tag_1   tag_2
0   1           cool video  drama   horror
1   2           great video sports  drama
2   3           super video comedy  horror

然后我有另一个搜索词数据框“df_search_terms”（例如，我可以将其放入列表中）。我想看看这些搜索词是否在其中一列中至少出现一次，如果是这样，在搜索词的数据框中增加一个计数器（也就是说，好吧，我们为视频找到了一次这个词，所以 += 1 ）。为了澄清起见，我想知道搜索词在包含 +/- 1000 个视频的数据帧中匹配多少次，对于至少一个标签。

显然我可以对匹配进行计数，但我只想为该特定术语在 df_search_terms 中增加一次计数器。像这样的东西（这不起作用，但我希望你明白要点）：

search_count=df['tag_1'].str.contains('drama').sum()
df_search_terms.loc[(df_search_terms['search_term'] == 'drama'),'matching_videos'] +=1

df_search_terms 将是这样的：

search_terms = [('drama',0), ('horror',0), ('sports',0)]

df_search_terms = pd.DataFrame(data=search_terms, columns=['search_term', 'number_matching_videos'])

search_term     number_matching_videos
drama                            0
horror                           0
sports                           0

我想解决方案在于巧妙地使用 apply 但恐怕我无法弄清楚。

我曾尝试使用如下所示的“if”语句，但出现错误：

if df.loc[(df['name'] == 'drama') | (df['tag_1'] == 'drama') | (df['tag_2'] == 'drama')]:
  df_search_terms.loc[(df_search_terms['search_term'] == 'drama'),'matching_videos'] +=1

ValueError：DataFrame 的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。

毗湿奴德夫

使用正则表达式搜索和统计所有匹配项

search_re = '(' + df_search_terms.search_term.str.cat(sep=')|(') + ')'

将所有标签列组合成一个字符串并搜索

df_search_terms['number_matching_videos'] = (
    df.filter(regex='tag_*')
    .agg(' '.join, axis=1)
    .str.extractall(search_re)
    .notnull().sum()
)

输出

  search_term  number_matching_videos
0       drama                       2
1      horror                       2
2      sports                       1

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-09-3

我来说两句

0 条评论

登录后参与评论

上一篇：Python 列表打印 - 任一列表中缺失值的顺序和空间

TOP 榜单

文章