如何删除/阻止文本文件中的重复行

Synik 发表于 Dev

114

西尼克

我整天都在努力思考，试图在堆栈溢出上尝试很多事情而没有任何效果，所以如果这真的很简单，我很抱歉，我很想念它。

我的情况是我的Python机器人正在从帖子中获取帖子ID，并将其放入文本文件中。

subreddit = reddit.subreddit('pythonforengineers')
# limiting the selection to the top 5 in hot
for submission in subreddit.new(limit=20):
    # re.findall is performing the filtering = removing all text but the found keys
    a = re.findall(steamKey15, submission.selftext, re.IGNORECASE)
    b = re.findall(steamKey25, submission.selftext, re.IGNORECASE)
    c = re.findall(steamKey17, submission.selftext, re.IGNORECASE)
    readPostIDFile()
    while submission.id not in steamKeyPostID:
        if a:
            #print(a)
            savePostID()
            saveSteamKey()
            removeDups()
        if b:
            #print(b)
            savePostID()
            saveSteamKey()
            removeDups()
        if c:
            #print(c)
            savePostID()
            saveSteamKey()
            removeDups()
        break

这是我的循环逻辑。这3个变量是steamKey15 / 25/17，因此我将在所有3种格式的帖子上对其进行测试，并且很自然地它会返回所有3种格式，但它还将帖子ID 3x写入我的文本文件。

这是帖子ID保存的逻辑：

def savePostID():
    #print(submission.selftext)                
    #print(submission.id)
    # adds the id to the text file
    steamKeyPostID.append(submission.id)
    with open('steamKeyPostID.txt', 'a') as f:
        for post_id in steamKeyPostID:
            f.write(submission.id + '\n')
            if submission.id not in 'steamKeyPostID.txt':      
                print('Beep. Boop. Bot saving the keys of: ' + '"' + submission.title + '"'+ ' to ---> steamKeys.txt')
                break           
            else:
                print('No keys were found!')
                break

我的目标是阻止多个帖子ID到达文本文件，或者对文本文件执行过滤以删除重复项（这将需要写回同一文本文件）。我不确定哪个会更容易，但是我一直都在尝试并失败。

我尝试使用不同类型的OrderedDict和set（）代码。我还尝试过修改for / if循环并更改其过滤的内容。我觉得这很容易，但是我却遇到了无尽的错误。我使用的是Python 3.7。

感谢您的帮助！我可能要等到明天，我需要休息一下。

西尼克

对于任何因谷歌搜索而迷途的人。我通过防止添加重复而不是删除重复来找到了解决方案。

我使用了以下代码块：

# this is the logic block for ensuring duplicate posts are not read. 
with open('steamKeyPostID.txt', 'r') as f:
    #read the existing .txt file
    steamKeyPostID = f.read()
    #put it on a newline
    steamKeyPostID = steamKeyPostID.split('\n')
    #gets rid of empty elements in the .txt and saves it to a list(array kinda)
    steamKeyPostID = list(filter(None, steamKeyPostID))

那应该做的是将文本文件的所有内容保存到列表中。然后，我使用while语句来过滤列表：

while submission.id not in steamKeyPostID:

proposal.id使用reddit API模块Praw。

当我重新运行该程序时，这对我来说非常理想，它会跳过文本文件中的所有帖子ID。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-26

我来说两句

0 条评论

登录后参与评论

上一篇：VScode扩展，用于在nodejs应用程序中查找未使用的公共功能

如何删除文本文件中的重复行？

根据列从文本文件中删除重复行

从文本文件中删除重复的行

删除文本文件中的重复行

删除文本文件中的非重复行

从多个文本文件中删除重复的行

删除文本文件中的重复行.....？

如何删除文本文件中的重复行并获取删除的行数？

如何从文本文件中删除部分重复项？

如何删除文本文件中的重复链接？

如何在 Bourn shell 脚本中删除文本文件中的重复行？

如何删除大型GB文本文件中的重复行？

如何有效地从大型文本文件中删除重复行？

如何批量删除巨大文本文件中的重复行

文本文件中的重复行

如何从文本文件中删除重复行以及与此重复项相关的唯一行

如何从文本文件中删除特定行？

如何从文本文件中删除一行？

如何从Powershell中的文本文件删除行？

如何删除文本文件中的特定行？

如何在文本文件中添加/删除行？

如何从文本文件中删除仅数字行？

删除文本文件中的行

合并文本文件并删除重复的行

删除文本文件中最后重复的行

如何从文本文件中检索随机行，然后在PHP中从文本文件中删除该行

如何删除或跳过文本文件中的行列表并在新文本文件中打印剩余的行？

删除文本文件中的ArrayList重复项-Java

TOP 榜单

文章

如何删除/阻止文本文件中的重复行

如何删除/阻止文本文件中的重复行

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException