模式捕获不适用于正斜杠

ParthS007

我在这样的记录中有一个字段：

{ 
  ....

  "test_field": "/xyz/abc-2021abs/drf/2021ABC"

  ....
}

我正在创建一个分析器，以/在pattern_capture的帮助下不忽略正斜杠（）。

这是我的映射和分析器。

{
    "mappings": {
      "properties": {
        "test_field": {
          "type": "text",
          "analyzer": "test_field_analyzer",
          "fields": {
            "exact": {
              "type": "keyword"
            }
          }
        }
      }
    },
    "settings": {
      "analysis": {
        "analyzer": {
          "test_field_analyzer": {
            "tokenizer" : "pattern",
            "filter" : [ "test_filter"]
          }
        },
        "filter" : {
            "test_filter" : {
               "type" : "pattern_capture",
               "preserve_original" : true,
               "patterns" : ["(\\p{Punct}+\\p{Alnum})"]
            }
         }
      }
    }
  }

当我检查生成的令牌时，正斜杠（/）将被忽略，并且模式捕获似乎不像pattern_capture上的示例那样工作。

请让我知道我在哪里做错了。

乔·索罗辛

我不确定那些类似Java的\\p模式，但这

{
  "mappings": {
    "properties": {
      "test_field": {
        "type": "text",
        "analyzer": "test_field_analyzer",
        "fields": {
          "exact": {
            "type": "keyword"
          }
        }
      }
    }
  },
  "settings": {
    "analysis": {
      "analyzer": {
        "test_field_analyzer": {
          "tokenizer": "keyword",
          "filter": [
            "test_filter"
          ]
        }
      },
      "filter": {
        "test_filter": {
          "type": "pattern_capture",
          "preserve_original": false,
          "patterns": [
            "(/[a-zA-Z-_0-9]+)"
          ]
        }
      }
    }
  }
}

将标记测试字段为

["/xyz", "/abc-2021abs", "/drf", "/2021ABC"]

如果那是你所追求的...

编辑

有一种使用自定义模式标记器而不是pattern_capture 过滤器来实现此目的的更简单方法：

{
  "mappings": {
    "properties": {
      "test_field": {
        "type": "text",
        "analyzer": "test_field_analyzer",
        "fields": {
          "exact": {
            "type": "keyword"
          }
        }
      }
    }
  },
  "settings": {
    "analysis": {
      "analyzer": {
        "test_field_analyzer": {
          "type": "custom",
          "tokenizer": "my_pattern_tokenizer"
        }
      },
      "tokenizer": {
        "my_pattern_tokenizer": {
          "type": "pattern",
          "pattern": "(/[a-zA-Z-_0-9]+)",
          "group": 1
        }
      }
    }
  }
}

由于您正在处理路径，因此您可能会发现路径层次标记器也很有用：

{
  "mappings": {
    "properties": {
      "test_field": {
        "type": "text",
        "analyzer": "test_field_analyzer",
        "fields": {
          "exact": {
            "type": "keyword"
          }
        }
      }
    }
  },
  "settings": {
    "analysis": {
      "analyzer": {
        "test_field_analyzer": {
          "tokenizer": "path_hierarchy"
        }
      }
    }
  }
}

将产生

["/xyz", "/xyz/abc-2021abs", "/xyz/abc-2021abs/drf", "/xyz/abc-2021abs/drf/2021ABC"]

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-02-6

我来说两句

0 条评论

登录后参与评论

VSCode Vim搜索不适用于正斜杠

设计模式不适用于 OnClickListener

崩溃不适用于模式

Grok模式不适用于$字符

捕获正则表达式模式不适用于多行字符串

nginx的try_files不适用于位置模式捕获中的变量

RewriteRule不适用于.htaccess中的尾部斜杠

Python：string.rfind() 不适用于反斜杠 ('\')

Preg替换不适用于捕获的参数，并且<

尝试/捕获不适用于 Laravel 5.4

尝试捕获laravel不适用于重复输入

立即捕获异常不适用于Task.WhenAll

图像比较不适用于相机捕获的图像

Bootstrap- jQueryvalidator插件不适用于模式

Docker Compose链接不适用于主机模式

Scala 模式匹配不适用于 Stream？

角度验证不适用于模式属性

HTML 5模式不适用于按钮的onclick事件

Swagger 模式不适用于 Swagger UI

event.stopPropagation不适用于模式（“ show”）

JSON模式oneOf不适用于引用

“模式匹配”不适用于Int子句（分支）

WearOS永远在线模式不适用于设备

DateTimeFormatter不适用于本地语言环境的LLLL模式

Highcharts不适用于Bootstrap 3模式主体

Shell通配符不适用于Julia的Shell模式

为什么输入模式属性不适用于数字？

为什么`newtype` 不适用于这种模式匹配？

验证不适用于引导数据模式

TOP 榜单

文章

模式捕获不适用于正斜杠

模式捕获不适用于正斜杠

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

用日期数据透视表和日期顺序查询

flask-admin 如何自定义删除按钮

在浏览器中请求URL时会发生什么？

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

为什么PlusShare.Builder setRecipients方法不起作用？

OS X-为什么我需要打开WiFi才能确定最近的位置

在Windows 7中无法删除文件（2）

android 背部按下

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

PyQt4.QtCore模块无法向sip模块注册

用白色图像隐藏Android Studio中的所有textView

为什么随机森林中的平均降低基尼系数取决于人口规模？

应用发明者仅从列表中选择一个随机项一次

正则表达式，用于查找所有以任何字母开头和数字开头的文件

ArgumentError：错误＃2109：在场景默认设置中未找到默认的帧标签

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

无法加载文件或程序集System.Runtime.CompilerServices.Unsafe

Jqgrid：多级别组摘要