如何在 Python 中的文本文件中提取部分图案线条的一部分？

容番

我有一个包含以下内容的文本文件：

0:00 txt txt e-mail1_to_extract txt_to_extract1 txt txt /data
0:00 txt txt e-mail2_to_extract txt_to_extract2 txt txt /data
0:00 txt txt txt e-mail3_to_extract txt_to_extract3 txt txt /var
0:00 txt txt txt txt e-mail4_to_extract txt_to_extract4 txt txt /var
0:00 txt txt e-mail5_to_extract txt_to_extract5 txt txt /data

首先，我想提取“0:00”和“/data”或“/var”之间的所有这些行。其次，我想处理这些数据，以便我只能提取其中的两部分。这个已经提取的范围中包含的文本没有标准化，所以我不能使用“startwith”/“endwith”之类的东西，但是，整个文本被连接起来（就像一个完整的单词）并且它的位置总是在电子邮件之后重复部分。有什么方法可以专门映射该部分并提取电子邮件+下一个字符串？

Txt = 我不想提取的额外文本。

我已经尝试从下面的代码开始，但没有得到任何结果：

with open('content.txt') as infile, open('extraction.txt', 'w') as outfile:
copy = False
for line in infile:
    if line.strip() == "0:00":
        copy = True
        continue
    elif line.strip() == "/":
        copy = False
        continue
    elif copy:
        outfile.write(line)

期望的输出：

e-mail1_to_extract txt_to_extract1
e-mail2_to_extract txt_to_extract2
e-mail3_to_extract txt_to_extract3
e-mail4_to_extract txt_to_extract4
e-mail5_to_extract txt_to_extract5

谢谢！

阿里特什

我使用了您提供的格式的示例文件 -

0:00 txt txt123 [email protected] txt_to_extract1 txt6456 txtssss /data
0:00 txt11 txt111 [email protected] txt_to_extract2 txtssss txtffff /data
0:00 txt111 txt123 txt [email protected] txt_to_extract3 txtosvbsvs txtkkkk /var
0:00 txt456 txt3663 [email protected] txt e-mail4_to_extract txt_to_extract4 txabjahsjat txtasba /var
0:00 txtGJK txtfggg [email protected] txt_to_extract5 txtbxajla txtzbaza /data

我使用了以下代码（用于确定电子邮件的功能，请相应地更改正则表达式）-

import re 
  
regex = '^[a-z0-9]+[\._]?[a-z0-9]+[@]\w+[.]\w{2,3}$'
def check(email):    
    if(re.search(regex,email)):  
        return True
    else:  
        return False
        
def getcols(row):
    for i in row.keys():
        if check(row[i]):
            return str(row[i]) + " " + str(row[i+1])
        else:
            return ""


ls = []
with open('TestData.txt') as infile, open('extraction.txt', 'w') as outfile:
    for line in infile:
        ls = line.split()
        for i in range(len(ls)):
            if check(ls[i]):
                try:
                    outfile.write(ls[i] + " " + ls[i+1]+"\n")
                except:
                    pass

我得到以下输出 -

[email protected] txt_to_extract1
[email protected] txt_to_extract2
[email protected] txt_to_extract3
[email protected] txt
[email protected] txt_to_extract5

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-14

我来说两句

0 条评论

登录后参与评论

上一篇：Docker - 让我的应用程序使用机密而不是 env。变量

TOP 榜单

文章

如何在 Python 中的文本文件中提取部分图案线条的一部分？

如何在 Python 中的文本文件中提取部分图案线条的一部分？

构建类似于Jarvis的本地语言应用程序

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

错误：找不到存根。请确保已调用spring-cloud-contract：convert

如何了解DFT结果

ng升级性能注意事项

Embers js中的更改侦听器上的组合框

Swift 2.1-对单个单元格使用UITableView

Java中的循环开关案例

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

ggplot：对齐多个分面图-所有大小不同的分面

如何避免每次重新编译所有文件？

Swift中的指针替代品？

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

使用分隔符将成对相邻的数组元素相互连接

如何开始为Ubuntu开发

Blazor：如何将事件传递给通用组件中的onClick函数