如何在Python中使用正则表达式从数据集中提取数据？

埃克利尔·汗（Eklil Khan）

我有一个数据集，我想从该数据集中提取正片特征。

در
همین
حال
،
<coref coref_coref_class="set_0" coref_mentiontype="ne" markable_scheme="coref" coref_coreftype="ident">
نجیب
 الله
خواجه
عمری
 ,
 </coref>
<coref coref_coref_class="set_0" coref_mentiontype="np" markable_scheme="coref" coref_coreftype="atr">
سرپرست
وزارت
تحصیلات
عالی
افغانستان
</coref>
گفت
که
در
سه
ماه
گذشته
در
۳۳
ولایت
کشور
<coref coref_coreftype="ident" coref_coref_class="empty" coref_mentiontype="ne" markable_scheme="coref">
خدمات
ملکی
</coref>
از
حدود
۱۴۹
هزار

我想将数据存储在两个列表中的数据集中。在find_atr清单中，我将数据存储在coref标签包括的位置coref_coreftype="atr"。对于find_ident列表，我想存储的数据。coref_coreftype="ident"因此，在此数据集中的最后一个coref标签上，我们还有另一个coref标签coref_coref_class="empty"。我不想存储带有标签的数据coref_coref_class="empty"。现在我在正则表达式中提到，它应该只包括那些coref_coref_class="set_.*?"不包括在内coref_coref_class="empty"的数据，但它仍然存储的数据coref_coref_class="empty"，而应该只存储的数据coref_coref_class="set_.*?"。

如何避免：

i_ident = []
j_atr = []
find_ident = re.findall(r'<coref.*?coref_coref_class="set_.*?coref_mentiontype="ne".*?coref_coreftype="ident".*?>(.*?)</coref>', read_dataset, re.S)
ident_list = list(map(lambda x: x.replace('\n', ' '), find_ident))
for i in range(len(ident_list)):
    i_ident.append(str(ident_list[i]))

find_atr = re.findall(r'<coref.*?coref_coreftype="atr".*?>(.*?)</coref>', read_dataset, re.S)
atr_list = list(map(lambda x: x.replace('\n', ' '), find_atr))
#print(coref_list)
for i in range(len(atr_list)):
    j_atr.append(str(atr_list[i]))

print(i_ident)
print()
print(j_atr)

古斯塔沃韦拉斯科

我将您的数据集文件减少为：

A
<coref coref_coref_class="set_0" coref_mentiontype="ne" markable_scheme="coref" coref_coreftype="ident">
B
</coref>
<coref coref_coref_class="set_0" coref_mentiontype="np" markable_scheme="coref" coref_coreftype="atr">
C
</coref>
D
<coref coref_coreftype="ident" coref_coref_class="empty" coref_mentiontype="ne" markable_scheme="coref">
E
</coref>
F

并尝试了这段代码，几乎与您提供的代码相同：

import re

with open ("test_dataset.log", "r") as myfile:
    read_dataset = myfile.read()

i_ident = []
j_atr = []
find_ident = re.findall(r'<coref.*?coref_coref_class="set_.*?coref_mentiontype="ne".*?coref_coreftype="ident".*?>(.*?)</coref>', read_dataset, re.S)
ident_list = list(map(lambda x: x.replace('\n', ' '), find_ident))
for i in range(len(ident_list)):
    i_ident.append(str(ident_list[i]))

find_atr = re.findall(r'<coref.*?coref_coreftype="atr".*?>(.*?)</coref>', read_dataset, re.S)
atr_list = list(map(lambda x: x.replace('\n', ' '), find_atr))
#print(coref_list)
for i in range(len(atr_list)):
    j_atr.append(str(atr_list[i]))

print(i_ident)
print()
print(j_atr)

并得到以下输出，对我来说似乎正确：

[' B ']

[' C ']

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-11

我来说两句

0 条评论

登录后参与评论

上一篇：如何在Visual Studio Code中重命名a.exe文件？

TOP 榜单

文章

如何在Python中使用正则表达式从数据集中提取数据？

如何在Python中使用正则表达式从数据集中提取数据？

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

隐藏发件人没有短信PHP

在Windows 7中无法删除文件（2）

HttpClient中的角度变化检测

Java Eclipse中的错误13，如何解决？

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

java io ioexception无法解析服务器地址解析器的响应

jOOQ：在特定表中查找约束

Flexbox CSS 对齐属性环境惰性？

共享图像将路径放入地址

加载Microsoft Visual菜单时出现问题

Powerpoint-条形长度错误的堆积条形图

应用发明者仅从列表中选择一个随机项一次

在Angular2中的输入值之前添加加号“ +”

检查errno！= EINTR：这是什么意思？

ClickHouse 创建临时表

ggplot：对齐多个分面图-所有大小不同的分面

Azure VM启动/停止日志

是否可以通过编程方式对很多动画进行重新着色？