Elasticsearch Analyzer 内置分词器使用示例详解

更新时间：2023年05月20日 11:52:41 作者：AskaJohnny

这篇文章主要为大家介绍了Elasticsearch Analyzer 内置分词器使用示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪

前置知识

主要介绍一下 Elasticsearch中 Analyzer 分词器的构成和一些Es中内置的分词器以及如何使用它们

es 提供了 analyze api 可以方便我们快速的指定某个分词器然后对输入的text文本进行分词帮助我们学习和实验分词器

POST _analyze
{
  "analyzer": "standard",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog's, bone ]

1.Analyzer

在ES中有很重要的一个概念就是分词，ES的全文检索也是基于分词结合倒排索引做的。所以这一文我们来看下何谓之分词。如何分词。

分词器是专门处理分词的组件，在很多中间件设计中每个组件的职责都划分的很清楚，单一职责原则，以后改的时候好扩展。

分词器由三部分组成。

Character Filters : 主要对原文本做处理, 例如去除 html 标签
Tokenizer : 按照规则把文本切分为单词, 也就是分词
Token Filters : 将切分后的单词进行加工处理, 小写,删除stopwords 停顿词, 增加同义词 , 扩展一些

分词场景:

数据写入index 的时候进行分词
query 查询时候需要对查询文本进行分词

2.Elasticsearch 内置分词器

在es中有不少内置分词器

Standard Analyzer : 默认分词器, 按Unicode文本分割算法拆分 , 转化为小写 , 支持中文(但是中文按照每个文字拆分,没啥意义)
Simple Analyzer : 按照非字母切分并且转化为小写
Stop Analyzer : 和 simple 一样但是多了过滤停用词(the a is) 默认使用 stop token filter 的 _ _ english _ _ 预定义
Whitespace Analyzer : 每当遇到空格的时候会进行分词 , 不会转小写
Keyword Analyzer : 不分词直接将输入当做输出
Patter Analyzer : 正则表达式
Language : 语言分词器 30多种
Customer Analyzer : 自定义分词器

3. Standard Analyzer

Standard 是es中默认的分词器 , 它是按照 Unicode 文本分割算法去对文本进行分词的

POST _analyze
{
  "analyzer": "standard",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog's, bone ]

3.1 Definition

包括了转小写的 token filter 和 stop token filter 去除停顿词

Tokenizer

[Standard Tokenizer]

Token Filters

[Standard Token Filter] : 没用只是作为保留的token filter (The standard token filter currently does nothing. It remains as a placeholder in case some filtering function needs to be added in a future version.)
[Lower Case Token Filter] : 转小写的 token filter
[Stop Token Filter] : 停顿词 token filter 默认是没有开启

3.2 Configuration

max_token_length : 最大的分词长度,如果超过此长度则直接分词 default 255
stopwords : 预定义的停顿词列表如: _ _ englisth _ _ 或者停顿词数组[] 默认 none 不设置
stopwords_path : 包含停顿词的文件路径

3.3 实验

// 使用 自定义的分词器 基于 standard
PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_english_analyzer": {
          "type": "standard", 
          "max_token_length": 5, // 最大词数
          "stopwords": "_english_" // 开启过滤停顿词 使用 englisth 语法
        }
      }
    }
  }
}
GET my_index/_analyze
{
  "analyzer": "my_english_analyzer",
  "text": "The hellogoodname jack"
}
// 可以看到 最长5个字符 就需要进行分词了, 并且停顿词 the 没有了
["hello", "goodn", "ame", "jack"]

4. Simple Analyzer

简单的分词器分词规则就是遇到非字母的就分词, 并且转化为小写,(lowercase tokennizer )

POST _analyze
{
  "analyzer": "simple",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

4.1 Definition

Tokenizer

Lower Case Tokenizer

4.2 Configuation

无配置参数

4.3 实验

simple analyzer 分词器的实现就是如下

PUT /simple_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "rebuilt_simple": {
          "tokenizer": "lowercase",
          "filter": [         
          ]
        }
      }
    }
  }
}

5. Stop Analyzer

stop analyzer 和 simple analyzer 一样, 只是多了过滤 stop word 的 token filter , 并且默认使用 english 停顿词规则

POST _analyze
{
  "analyzer": "stop",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
// 可以看到 非字母进行分词 并且转小写 然后 去除了停顿词
[ quick, brown, foxes, jumped, over, lazy, dog, s, bone ]

5.1 Definition

Tokenizer

Lower Case Tokenizer : 转小写的

Token filters

Stop Token Filter : 过滤停顿词默认使用规则 english

5.2 Configuration

stopwords : 指定分词的规则默认 english , 或者分词的数组
stopwords_path : 指定分词停顿词文件

5.3 实验

如下就是对 Stop Analyzer 的实现 , 先转小写后进行停顿词的过滤

PUT /stop_example
{
  "settings": {
    "analysis": {
      "filter": {
        "english_stop": {
          "type":       "stop",
          "stopwords":  "_english_" 
        }
      },
      "analyzer": {
        "rebuilt_stop": {
          "tokenizer": "lowercase",
          "filter": [
            "english_stop"          
          ]
        }
      }
    }
  }
}

设置 stopwords 参数指定过滤的停顿词列表

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_stop_analyzer": {
          "type": "stop",
          "stopwords": ["the", "over"]
        }
      }
    }
  }
}
POST my_index/_analyze
{
  "analyzer": "my_stop_analyzer",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ quick, brown, foxes, jumped, lazy, dog, s, bone ]

6. Whitespace Analyzer

空格分词器, 顾名思义遇到空格就进行分词, 不会转小写

POST _analyze
{
  "analyzer": "whitespace",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog's, bone. ]

6.1 Definition

Tokenizer

Whitespace Tokenizer

6.2 Configuration

无配置

6.3 实验

whitespace analyzer 的实现就是如下, 可以根据实际情况进行添加 filter

PUT /whitespace_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "rebuilt_whitespace": {
          "tokenizer": "whitespace",
          "filter": [         
          ]
        }
      }
    }
  }
}

7. Keyword Analyzer

很特殊它不会进行分词, 怎么输入就怎么输出

POST _analyze
{
  "analyzer": "keyword",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
//注意 这里并没有进行分词 而是原样输出
[ The 2 QUICK Brown-Foxes jumped over the lazy dog's bone. ]

7.1 Definition

Tokennizer

Keyword Tokenizer

7.2 Configuration

无配置

7.3 实验

rebuit 如下就是 Keyword Analyzer 实现

PUT /keyword_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "rebuilt_keyword": {
          "tokenizer": "keyword",
          "filter": [         
          ]
        }
      }
    }
  }
}

8. Patter Analyzer

正则表达式进行拆分 ,注意正则匹配的是标记, 就是要被分词的标记默认是按照 \w+ 正则分词

POST _analyze
{
  "analyzer": "pattern",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
// 默认是 按照 \w+ 正则
[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

8.1 Definition

Tokennizer

Pattern Tokenizer

Token Filters

Lower Case Token Filter
Stop Token Filter (默认未开启)

8.2 Configuration

pattern	A Java regular expression, defaults to \W+.
flags	Java regular expression.
lowercase	转小写默认开启 true.
stopwords	停顿词过滤默认none 未开启 , Defaults to _none_.
stopwords_path	停顿词文件路径

8.3 实验

Pattern Analyzer 的实现就是如下

PUT /pattern_example
{
  "settings": {
    "analysis": {
      "tokenizer": {
        "split_on_non_word": {
          "type":       "pattern",
          "pattern":    "\\W+" 
        }
      },
      "analyzer": {
        "rebuilt_pattern": {
          "tokenizer": "split_on_non_word",
          "filter": [
            "lowercase"       
          ]
        }
      }
    }
  }
}

9. Language Analyzer

提供了如下这么多语言分词器 , 其中 english 也在其中

arabic, armenian, basque, bengali, bulgarian, catalan, czech, dutch, english, finnish, french, galician, german, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, portuguese, romanian, russian, sorani, spanish, swedish, turkish.

GET _analyze
{
  "analyzer": "english",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ 2, quick, brown, foxes, jumped, over, lazy, dog, bone ]

10. Customer Analyzer

没啥好说的就是当提供的内置分词器不满足你的需求的时候 ,你可以结合如下3部分

Character Filters : 主要对原文本做处理, 例如去除 html 标签
Tokenizer : 按照规则把文本切分为单词, 也就是分词
Token Filters : 将切分后的单词进行加工处理, 小写,删除stopwords 停顿词, 增加同义词 , 扩展一些

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type": "custom",
          "char_filter": [
            "emoticons" 
          ],
          "tokenizer": "punctuation", 
          "filter": [
            "lowercase",
            "english_stop" 
          ]
        }
      },
      "tokenizer": {
        "punctuation": { 
          "type": "pattern",
          "pattern": "[ .,!?]"
        }
      },
      "char_filter": {
        "emoticons": { 
          "type": "mapping",
          "mappings": [
            ":) => _happy_",
            ":( => _sad_"
          ]
        }
      },
      "filter": {
        "english_stop": { 
          "type": "stop",
          "stopwords": "_english_"
        }
      }
    }
  }
}
POST my_index/_analyze
{
  "analyzer": "my_custom_analyzer",
  "text":     "I'm a :) person, and you?"
}
[ i'm, _happy_, person, you ]

总结

本篇主要介绍了 Elasticsearch 中的一些内置的 Analyzer 分词器, 这些内置分词器可能不会常用,但是如果你能好好梳理一下这些内置分词器,一定会对你理解Analyzer 有很大的帮助, 可以帮助你理解 Character Filters , Tokenizer 和 Token Filters 的用处.

有机会再聊聊一些中文分词器如 IKAnalyzer, ICU Analyzer ,Thulac 等等.. 毕竟开发中中文分词器用到更多些

以上就是Elasticsearch Analyzer 内置分词器使用示例详解的详细内容，更多关于Elasticsearch Analyzer分词器的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

巧妙mybatis避免Where 空条件的尴尬
这篇文章主要介绍了巧妙mybatis避免Where 空条件的尴尬，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-11-11
microlog4android将Android Log日志写到SD卡文件中实现方法
这篇文章主要介绍了microlog4android将Android Log日志写到SD卡文件中实现方法的相关资料,需要的朋友可以参考下
2016-10-10
java中Socket设置超时时间的两种方式
这篇文章主要介绍了java中Socket设置超时时间的两种方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-11-11
Spring AOP的使用详解
这篇文章主要介绍了Spring AOP的使用详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-05-05
微服务Spring Boot 整合Redis 阻塞队列实现异步秒杀下单思路详解
这篇文章主要介绍了微服务Spring Boot 整合Redis 阻塞队列实现异步秒杀下单,使用阻塞队列实现秒杀的优化，采用异步秒杀完成下单的优化，本文给大家分享详细步骤及实现思路，需要的朋友可以参考下
2022-10-10
基于Java生成图片验证码的方法解析
这篇文章主要来为大家详细介绍一下基于Java生成图片验证码的具体方法，文中的示例代码讲解详细，具有一定的借鉴价值，需要的可以参考一下
2023-02-02
Java项目防止SQL注入的几种方法总结
SQL注入是比较常见的网络攻击方式之一,在客户端在向服务器发送请求的时候,sql命令通过表单提交或者url字符串拼接传递到后台持久层,最终达到欺骗服务器执行恶意的SQL命令,下面这篇文章主要给大家总结介绍了关于Java项目防止SQL注入的几种方法,需要的朋友可以参考下
2023-04-04
java 排序算法之希尔算法
这篇文章主要介绍了java 排序算法之希尔排序，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-08-08
如何通过jstack命令dump线程信息
这篇文章主要介绍了如何通过jstack命令dump线程信息,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-07-07
mybatis-plus雪花算法增强idworker的实现
今天聊聊在mybatis-plus中引入分布式ID生成框架idworker，进一步增强实现生成分布式唯一ID,具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-07-07