在SpaCy中使用PhraseMatcher查找多种匹配类型

弗拉迪斯拉夫·多夫加莱克（Vladislav Dovgalec）：

SpaCy文档和样本显示，PhraseMatcher类对于匹配文档中的标记序列很有用。必须提供将要匹配的序列的词汇表。

在我的应用程序中，我有一些包含标记和短语的文档。有不同类型的实体。数据是远程自然语言（文档是一组具有半随机顺序的关键字）。我正在尝试查找多种类型的匹配项。

例如：

yellow boots for kids

如何使用SpaCy的PhraseMatches查找颜色（例如黄色），产品类型（例如靴子）和年龄（例如孩子）的匹配项？这是一个好用例吗？如果不同的实体匹配重叠（例如，颜色在颜色列表和材料列表中匹配），是否可以产生所有唯一的情况？

我真的不能使用序列标记器，因为数据结构松散且充满歧义。我有一个实体列表（例如颜色，颜色，产品类型）和关联的值列表。

一种想法是实例化多个PhraseMatcher对象（每个实体一个），分别进行匹配，然后合并结果。每种实体类型都有自己的词汇表。这听起来很简单，但效率不高，尤其是合并部分。值列表相当大。在走这条路线之前，我想知道这是一个好主意还是使用SpaCy做到这一点的简单方法。

Ines Montani：

spaCy PhraseMatcher支持添加包含多个模式的多个规则，并为您添加的每个匹配器规则分配ID。如果两个规则重叠，则将返回两个匹配项。因此，您可以执行以下操作：

color_patterns = [nlp(text) for text in ('red', 'green', 'yellow')]
product_patterns = [nlp(text) for text in ('boots', 'coats', 'bag')]
material_patterns = [nlp(text) for text in ('silk', 'yellow fabric')]

matcher = PhraseMatcher(nlp.vocab)
matcher.add('COLOR', None, *color_patterns)
matcher.add('PRODUCT', None, *product_patterns)
matcher.add('MATERIAL', None, *material_patterns)

当您在matcher上调用时doc，spaCy将返回一个(match_id, start, end)元组列表。因为spaCy将所有字符串存储为整数，所以match_id返回的字符串也将是整数–但是您始终可以通过在词汇表中查找它来获取字符串表示形式StringStore，即nlp.vocab.strings：

doc = nlp("yellow fabric")
matches = matcher(doc)
for match_id, start, end in matches:
    rule_id = nlp.vocab.strings[match_id]  # get the unicode ID, i.e. 'COLOR'
    span = doc[start : end]  # get the matched slice of the doc
    print(rule_id, span.text)

# COLOR yellow
# MATERIAL yellow fabric

添加匹配器规则时，您还可以将on_match回调函数定义为的第二个参数Matcher.add。如果您想触发特定的操作，这通常很有用–例如，如果COLOR找到匹配项，则做一件事，然后为PRODUCT匹配项做其他事情。

如果您想更优雅地解决此问题，则可能还需要考虑将匹配器与自定义管道组件或自定义属性结合使用。例如，您可以编写一个简单的组件，当您调用nlp()文本，查找匹配项并设置Doc._.contains_product或Token._.is_color属性时，该组件会自动运行。文档中有一些示例，可以帮助您入门。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-06-2

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

在SpaCy中使用PhraseMatcher查找多种匹配类型

在SpaCy中使用PhraseMatcher查找多种匹配类型

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用