如果句子中有重复的单词如何删除行

yanbiceps

我有一个清单

top = ['GME', 'MVIS', 'TSLA', 'AMC']

我有一个数据集

                            dt  ...                                               text
0       2021-03-19 20:59:49+06  ...  I only need TSLA TSLA TSLA TSLA to hit 20 eod to make up for a...
1       2021-03-19 20:59:51+06  ...                                 Oh this isn’t good
2       2021-03-19 20:59:51+06  ...  lads why is my account covered in more GME ...
3       2021-03-19 20:59:51+06  ...  I'm tempted to drop my last 800 into some TSLA...

所以我想要做的是检查句子中的行中是否包含超过 3 个单词，我想删除这一行

谢谢你的帮助

阿德里安

让我们编写一个函数来确定在给定的句子中是否有超过 3 个来自列表 "top" 的单词：

def check_words(sentence,top):
    words = sentence.split()
    count = 0
    for word in words :
        if word in top :
             count+=1
    return(count>3)

然后你想创建一个列 True/False 是否句子包含列表中的 3 个以上的单词。让我们使用熊猫数据框结构：

dataframe['Contains_3+_words'] = dataframe.apply(lambda r : check_words(r.text,top), axis=1)

然后我们只保留列表中没有包含 3 个以上单词的句子的行：

dataframe = dataframe[dataframe['Contains_3+_words']==False]]

此外，您可以删除我们创建的列：

dataframe.drop(['Contains_3+_words'], axis=1, inplace=True)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-09-6

我来说两句

0 条评论

登录后参与评论

如何删除在熊猫中有英语句子的行

如果句子中有重复的单词如何删除行

如果句子中有重复的单词如何删除行

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用