在 MongoDB 中，如果我的文本包含 UUID，文本是如何提取的？

汤姆耶

我正在调查 MongoDB 中集合的缓慢更新。
以前的同事为_id字段选择了字符串类型，并根据其他字符串字段建立索引。

现在我明白文本索引是有梗的，我可以想象更新文档时这可能会很重。-field
的内容_id也是一个 UUID。现在我不完全理解词干是如何工作的，但是猜测 UUID ( part1-part2-part3-part4-etc) 的每个部分成为索引中的唯一条目，导致查询变慢。

有人可以解释词干提取如何处理包含 UUID 的文本吗？

斯坦尼

Stemming 仅适用于作为text索引一部分的字符串字段。默认_id索引的选项不能更改，_id索引不能是text索引，因此词干提取不适用于此上下文。该_id值是索引中的单个条目，必须是唯一的。

现在我不完全理解词干是如何工作的，但是猜测 UUID ( part1-part2-part3-part4-etc) 的每个部分成为索引中的唯一条目，导致查询变慢。

Stemming使用特定于语言的启发式方法将单词简化为它们预期的词根形式。词干库具有语言的典型屈折规则的概念，但对有效单词或语法没有任何理解。在text索引定义中包含 UUID 字段（或其他随机的非语言字符串）通常没有意义。

MongoDBtext索引使用开源Snowball 库进行词干提取。

有人可以解释词干提取如何处理包含 UUID 的文本吗？

最好的方法是解释 MongoDB$text查询以准确了解它们是如何解析的。但是，还有一个在线 Snowball 演示，如果您想快速尝试不同语言的词干提取算法，它会很有用。

MongoDBtext索引或$text查询会将空格和大多数标点字符（包括连字符）视为单词分隔符，因此part1-part2-part3-part4-etc将分为 5 个term。每个术语都将被截断，任何重复的术语都将被忽略。由随机字母或值组成的术语part1不会有词干启发式意外匹配之外的根形式。

例如，在英语中：

以单字结尾的词s一般是复数。如果你随便编一个单词 like part4s，它就会干到part4。
以结尾的词ss通常不是复数，因此part4ss将保持不变。

您可以通过解释文本搜索查询并查看parsedTextQuery.

使用mongo外壳：

> db.stores.createIndex( { name: "text", description: "text" } )
> db.stores.find( { $text: { $search: "part1-part2-part3-part4-etc-part4s-part4ss" } } ).
       explain().queryPlanner.winningPlan.parsedTextQuery
{
    "terms" : [
        "etc",
        "part1",
        "part2",
        "part3",
        "part4",
        "part4ss"
    ],
    "negatedTerms" : [ ],
    "phrases" : [ ],
    "negatedPhrases" : [ ]
}

我在您的示例 UUID 中添加了part4s和part4ss。由于part4s词干到part4（这已经是一个独特的术语），您会注意到我的查询仅找到 6 个术语而不是 7 个。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-1

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

在 MongoDB 中，如果我的文本包含 UUID，文本是如何提取的？

在 MongoDB 中，如果我的文本包含 UUID，文本是如何提取的？

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用