从 Python 中的文本文件中提取句子

sans_mist

我有一个包含 18000 多个 .txt 文件的目录。大多数文件都是电子邮件,因此大多采用以下格式:

(Some text)

Subject: Re: Relevant text 

(More text)

从每个 .txt 文件中,我需要提取“相关文本”

到目前为止我最好的结果是

re.findall(r"(Subject:[^.]*\n\n\n?)",text)

3 个示例文件的输出如下:

['Subject: Re: DMORPH\n\nIn article <>  (Armstrong Jay N) writes:\n>Can someone please tell me where I can ftp DTA or DMORPH?\n\n']

['Subject: Alias phone number wanted\n\n']

['Subject: Re: The 1994 Mustang\n\n'] 
库尔迪普·乔达里

尝试

import re, os
relevant_texts={}
textfilesdir=#enter you text file dir here
for file in os.listdir(textfilesdir):
    if os.path.splitext(file.lower())== '.txt':
        with open(os.path.join(textfilesdir, file) as f:
            subject = re.findall('[sS]{1}ubject:.+\n+', f.read())
            if len(subject):
                relevant_texts[file] = re.sub('[sS]{1}ubject:[ ]*(Re:)*', '', subject[0].strip()).strip()
            else:
                relevant_texts[file] = 'SUBJECT NOT FOUND !!!'
                print('relevant text not found in %s!!!'%file)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

从python 3中的文本文件中提取数据

在 Python 中匹配和从文本文件中提取

在 Python 中提取 JSON 文本文件中的值

从python中的文本文件中提取信息

从文本文件中提取文本的Python程序?

从文本文件Python中提取括号之间的文本

使用python从文本文件中的特定模式中提取文本

使用python从多个文本文件中提取数据

从文本文件 Python 中提取 URL 和 TITLE

Python从文本文件中提取特定数字

使用Python从文本文件中提取数值

Python:从文本文件中提取主题标签

使用python从文本文件中提取数据

从文本文件中提取行的特定PIECE(Python)

从文本文件中提取数据(python)

使用 python 从文本文件中提取特定行

从文本文件 Python 中提取重复的短语

Python文本文件中句子排列的变化

需要从python3中的文本文件中提取表格数据

使用Python从多个文本文件中的多个字典中提取键值对

如何从python中的文本文件中提取特定内容?

如何从 Python 文本文件中的一行中提取数字

使用python3中的tarfile模块从tar中提取文本文件

从文本文件中提取 IP 地址并将它们用作 Python 中的输入

如何使用findall函数从python中的文本文件中提取特定的url

从python中的文本文件中提取多个模式(单个def函数)

如何从文本文件中提取数据到python中的二维数组

如何在Python中从文本文件中提取特定数据?

在python中从文本文件的一行中提取特定单词