Elasticsearch 优先排名较短/相关性较低的标题

大炮莫耶

我正在使用 Elasticsearch 7.3 进行产品搜索。产品标题的格式不同，但我对此无能为力。

一些标题可能如下所示：

Ford Hub Bearing

其他人是这样的：

Hub bearing for a Chevrolet Z71 - model number 5528923-01

如果有人搜索“雪佛兰轮毂轴承”，“福特轮毂轴承”产品排名第一，雪佛兰零件排名第二。如果我从产品标题中删除所有额外的文本（型号 5528923-01），雪佛兰零件会根据需要排名第一。

不幸的是，我无法修复产品标题，因此当有人搜索Chevrolet Hub Bearing. 我只是将类型设置为nametotext并standard在我的索引中应用了分析器。这是我的查询代码：

{
    query:{

        bool: {
            must: [
                {
                    multi_match:{
                        fields: 
                            [
                               'name'
                             ],
                             query: "Chevrolet Hub Bearing"
                    }
                 }                  
            ]
        }

    }         
}

皮埃尔·马莱

Elasticsearch 在评分公式中使用字段长度和 BM25 算法。这就是为什么较长的文档即使匹配更多术语也会排在第二位的原因。

我建议您阅读有关 BM25 的精彩博文：how-shards-affect-relevance-scoring-in -elasticsearch和the-bm25-algorithm-and-its-variables

但是您可以调整 bm25 算法来避免这种行为。这是elasticsearch的bm25文档和解释如何做的帖子

基于 TF/IDF 的相似性具有内置的 tf 规范化，并且应该对短字段（如名称）工作得更好。有关更多详细信息，请参阅 Okapi_BM25。这种相似性有以下选项：

k1 => 控制非线性项频归一化（饱和度）。默认值为 1.2。

b => 控制文档长度标准化 tf 值的程度。默认值为 0.75。

discount_overlaps => 确定计算范数时是否忽略重叠标记（位置增量为 0 的标记）。默认情况下这是真的，这意味着在计算规范时重叠标记不计算在内。

因此，您应该在索引设置中配置新的相似度，如下所示：

PUT <index>
{
  "settings": {
    "index": {
      "number_of_shards": 1
    },
    "similarity": {
      "my_bm25_without_length_normalization": {
        "type": "BM25",
        "b": 0
      }
    }
  },
  "mappings": {
    "doc": {
      "properties": {
        "name": {
          "type": "text",
          "similarity": "my_bm25_without_length_normalization"
        }
      }
    }
  }
}

然后 if 将停止惩罚更长的得分。其他字段的长度规范化将保留。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-25

我来说两句

0 条评论

登录后参与评论

上一篇：为什么我们使用损失来更新我们的模型，但使用指标来选择我们需要的模型？

Elasticsearch 优先排名较短/相关性较低的标题

Elasticsearch 优先排名较短/相关性较低的标题

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath