从非结构化数据中提取名称实体

尼拉里·科达（Nirali Khoda）

我有高度非结构化的数据，我想从中提取全名。数据是这样的

txt = " 663555 murphy rd suite 106 richardson tx 7508 usa 111 it park indore 452 010 india ph 91 987 4968420 123456789 sumeetlogikviewcom  Nirali Khoda cofounder analytics pvt ltd ideata  a comprehensive data analytics platform"

text = "dicictay  8 8 8 bf infotech pvt ltd manager infotech pvt ltd  redefining technologies 91 12345 12345 zoeb fatemi "

我尝试过spacy和standfordNER，但效果不佳。它从这样的地址给我起名字

en = spacy.load('en_core_web_md')

txt = txt.title().strip()

sents = en(txt)

people = [ee for ee in sents.ents if ee.label_ == 'PERSON']

输出是这样的：

[663555 Murphy Rd Suite, Analytics Pvt Ltd Ideata]

预期产量：

[Nirali Khoda]

帮助将不胜感激。谢谢：）

登林格

在开始之前，我想提一下，我改用spacy.load("en_core_web_lg")了我的代码-这似乎会极大地影响解析结果，因此这可能是解决问题的初始方法。
我也没有在本地运行StanfordNER的安装，因此我改用了他们提供的Web界面。

正如您已经提到的那样，由于您的“句子”缺乏任何内聚结构，因此NER的问题在这种情况下是有问题的。问题是mos NER的准确性来自上下文信息，而您的情况显然不够。
在上面提到的Web界面中，通过解析您的示例中的一个句子也可以很好地看到这一点：解析后的句子树看起来非常可怕（显然），并且从那里我们可以接受的东西很多。

我还使用SpaCy解析了第一句话，在查看可识别的实体时得到了以下结果：

663555 DATE
106 Richardson PERSON
Tx GPE
7508 DATE
Usa GPE
111 CARDINAL
Park Indore GPE
452 010 CARDINAL
India GPE
91 CARDINAL
987 CARDINAL
123456789 DATE
Sumeetlogikviewcom PERSON
Nirali Khoda Cofounder Analytics Pvt Ltd Ideata ORG
Comprehensive Data Analytics Platform ORG

正如我们所看到的，这里的问题是双重的：不仅您名字中的实例标签错误（ORG而不是PERSON），而且还表明最初拆分为不同实体存在问题。

我假设您具有某种访问数据提取管道的方式，并且不会“盲目地”从其他地方获取这些信息。这一点特别重要，因此您可以在不同的容器之间引入某种形式的分隔。尽管大多数预处理器都有某种形式的锅炉（删除HTML标记并“统一”它们），但某种形式的分隔可能对您有好处：我对输入内容做了一些改动：

txt = " 663555 murphy rd suite 106 richardson tx 7508 usa , 111 it park indore 452 010 india ph 91 987 4968420 123456789 , sumeetlogikviewcom ,  Nirali Khoda , cofounder analytics pvt ltd , ideata  a comprehensive data analytics platform"

然后，我再次执行了相同的处理，然后-看一下-得到以下结果：

663555 DATE
106 Richardson PERSON
Tx GPE
7508 DATE
Usa GPE
111 CARDINAL
Park Indore GPE
452 010 CARDINAL
India GPE
91 CARDINAL
987 CARDINAL
123456789 DATE
Sumeetlogikviewcom PERSON
Nirali Khoda PERSON
Cofounder Analytics Pvt Ltd ORG
Ideata   ORG

这次，结果既被正确拆分，又被（更多）正确分类。显然，您仍然无法获得理想的结果，但是NER很少出现这种情况。

如果您只想识别名称，则也可以使用更粗略的方法“手动解析”它们，而不管基础实体是什么：您可能希望让SpaCy或CoreNLP拆分不同的实体，然后-与实际的标签无关-检查每个实体是否包含一组通用的名字/姓氏中包含的令牌（例如，可以在此处找到美国的数据）。我确信存在更全面的列表，如果您只是在寻找名称，这可能是一个很好的替代。当然，这也不太可能完美地解决您的问题（例如，丰田汽车，它在日语中也是很常见的姓氏；或者像普罗珀先生这样的东西，（对于计算机）也很可能是“人”。 ”）。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-10

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

从非结构化数据中提取名称实体

从非结构化数据中提取名称实体

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称