从 Python 中的文本文件中提取句子

sans_mist 发表于 Dev

48

sans_mist

我有一个包含 18000 多个 .txt 文件的目录。大多数文件都是电子邮件，因此大多采用以下格式：

(Some text)

Subject: Re: Relevant text 

(More text)

从每个 .txt 文件中，我需要提取“相关文本”

到目前为止我最好的结果是

re.findall(r"(Subject:[^.]*\n\n\n?)",text)

3 个示例文件的输出如下：

['Subject: Re: DMORPH\n\nIn article <>  (Armstrong Jay N) writes:\n>Can someone please tell me where I can ftp DTA or DMORPH?\n\n']

['Subject: Alias phone number wanted\n\n']

['Subject: Re: The 1994 Mustang\n\n']

库尔迪普·乔达里

尝试

import re, os
relevant_texts={}
textfilesdir=#enter you text file dir here
for file in os.listdir(textfilesdir):
    if os.path.splitext(file.lower())== '.txt':
        with open(os.path.join(textfilesdir, file) as f:
            subject = re.findall('[sS]{1}ubject:.+\n+', f.read())
            if len(subject):
                relevant_texts[file] = re.sub('[sS]{1}ubject:[ ]*(Re:)*', '', subject[0].strip()).strip()
            else:
                relevant_texts[file] = 'SUBJECT NOT FOUND !!!'
                print('relevant text not found in %s!!!'%file)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-13

我来说两句

0 条评论

登录后参与评论

上一篇：解析很长的文本

相关文章

从python 3中的文本文件中提取数据

在 Python 中匹配和从文本文件中提取

在 Python 中提取 JSON 文本文件中的值

从python中的文本文件中提取信息

从文本文件中提取文本的Python程序？

从文本文件Python中提取括号之间的文本

使用python从文本文件中的特定模式中提取文本

使用python从多个文本文件中提取数据

从文本文件 Python 中提取 URL 和 TITLE

Python从文本文件中提取特定数字

使用Python从文本文件中提取数值

Python：从文本文件中提取主题标签

使用python从文本文件中提取数据

从文本文件中提取行的特定PIECE（Python）

从文本文件中提取数据（python）

使用 python 从文本文件中提取特定行

从文本文件 Python 中提取重复的短语

Python文本文件中句子排列的变化

需要从python3中的文本文件中提取表格数据

使用Python从多个文本文件中的多个字典中提取键值对

如何从python中的文本文件中提取特定内容？

如何从 Python 文本文件中的一行中提取数字

使用python3中的tarfile模块从tar中提取文本文件

从文本文件中提取 IP 地址并将它们用作 Python 中的输入

如何使用findall函数从python中的文本文件中提取特定的url

从python中的文本文件中提取多个模式（单个def函数）

如何从文本文件中提取数据到python中的二维数组

如何在Python中从文本文件中提取特定数据？

在python中从文本文件的一行中提取特定单词

TOP 榜单

文章

热门标签

归档