索引markdown文档以在Apache SOLR中进行全文搜索

车丹·尤瓦勒（Chetan Yewale）

我正在使用Apache SOLR索引降价文档。
如您所知，Markdown基本上是纯文本，带有特殊标签，用于加粗和斜体格式。问题是：如果降价具有粗体或斜体格式，则全文搜索将不起作用。但是，如果降价文档没有格式元素（粗体，斜体或标题，链接等），则全文搜索有效。总而言之，当markdown文档与纯文本相同时（即，没有单词具有markdown格式），它可以工作。

我的结论是，在对文档建立索引之前，需要将markdown转换为纯文本。只有这样，全文搜索才能在所有情况下按预期进行。

我在不同的在线论坛上进行了搜索和阅读。我想我需要实现一个自定义分析器。定制分析器需要先将markdown转换为纯文本，然后对其进行索引。我认为这种情况类似于Apache TikaMicrosoft文档的情况。它解析ms office文档并提取纯文本。我想我也需要类似的东西。
我也认为降价文件-我需要解析并转换为纯文本。
我已经找到了一种将markdown转换为纯文本的方法。

但是，我不确定是否真的需要创建自定义分析器。我读了一些自定义分析器的代码-但它们都使用tokenFilters。据我了解，tokenFilters该流在每个令牌的基础上进行操作。就我而言，整个markdown语料库必须转换为plain text。因此，请为此建议一种方法。

我考虑过的另一种方法是先将markdown转换为纯文本，然后将纯文本连同markdown一起保存到磁盘。但是，我想避免这种情况并在SOLR中处理。我希望SOLR将其转换为纯文本，然后对其进行索引。

我应该创建一个custom analyzer用于将markdown文档保存到plain text吗？还是custom query parser必须的？
有人可以提供相同的代码示例（伪代码也可以）。

请帮忙。

马特·林德

使用StandardTokenizer-它会分割大多数非数字字符，这应该适合于将Markdown索引为单个术语，而不是保持Markdown语法完整。

该标记器将文本字段拆分为标记，将空格和标点符号视为分隔符。分隔符将被丢弃，但以下情况除外：

不包含空格的句点（点）保留为令牌的一部分，包括Internet域名。

“ @”字符是令牌分隔标点的集合之一，因此电子邮件地址不会保留为单个令牌。

如果您还希望在单词之间分割句点，则可以使用PatternReplaceCharFilterFactory在单词之间插入一个空格，该单词之间用点分隔，不带空格。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-10

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

索引markdown文档以在Apache SOLR中进行全文搜索

索引markdown文档以在Apache SOLR中进行全文搜索

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath