0%

ElasticSearch分词与ik插件

摘要:介绍 ElasticSearch 分词的必要性和常用的分词插件 ik 的使用。

分词的必要性


ES 作为一个开源的搜索引擎,其核心自然在于搜索,而搜索不同于我们在 MySQL 中的select查询语句,无论我们在百度搜索一个关键字,或者在京东搜索一个商品时,常常无法很准确的给出一个关键字,例如我们在百度希望搜索 “Java 教程”,我们希望结果是 “Java 教程”、“Java”、“Java 基础教程”,甚至是 “教程 Java”。MySQL 虽然能满足前三种查询结果,但却无法满足最后一种搜索结果。

虽然我们很难做到对于百度或者京东的搜索(这甚至需要了解 Lucene 和搜索的底层原理),但我们能借助 ES 做出一款不错的搜索产品。

ES 的搜索中,分词是非常重要的概念。掌握分词原理,对待一个不甚满意的搜索结果我们能定位是哪里出了问题,从而做出相应的调整。

ES 中,只对字符串进行分词,在 ElasticSearch2.x 版本中,字符串类型只有string,ElasticSearch5.x 版本后字符串类型分为了textkeyword类型,需要明确的分词只在text类型。

ES 的默认分词器是standard,对于英文搜索它没有问题,但对于中文搜索它会将所有的中文字符串挨个拆分,也就是它会将 “中国” 拆分为 “中” 和“国”两个单词,这带来的问题会是搜索关键字为 “中国” 时,将不会有任何结果,ES 会将搜索字段进行拆分后搜索。当然,你可以指定让搜索的字段不进行分词,例如设置为keyword字段。

分词体验

前面说到 ES 的默认分词器是standard, 可直接通过 API 指定分词器以及字符串查看分词结果。

使用standard进行英文分词:

1
2
3
4
5
6
7
POST http://localhost:9200/_analyze
{
"analyzer":"standard",
"text":"hello world"
}


ES 响应:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
{
"tokens": [
{
"token": "hello",
"start_offset": 0,
"end_offset": 5,
"type": "<ALPHANUM>",
"position": 0
},
{
"token": "world",
"start_offset": 6,
"end_offset": 11,
"type": "<ALPHANUM>",
"position": 1
}
]
}

如果我们对 “helloword” 进行分词,结果将只有 “helloword” 一个词,standsard对英文按照空格进行分词。

使用standard进行中文分词:

1
2
3
4
5
6
7
POST http://localhost:9200/_analyze
{
"analyzer":"standard",
"text":"学生"
}


ES 响应:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
{
"tokens": [
{
"token": "学",
"start_offset": 0,
"end_offset": 1,
"type": "<IDEOGRAPHIC>",
"position": 0
},
{
"token": "生",
"start_offset": 1,
"end_offset": 2,
"type": "<IDEOGRAPHIC>",
"position": 1
}
]
}

“学生” 显然应该是一个词,不应该被拆分。也就是说如果字符串中是中文,默认的standard不符合我们的需求。幸运地是, ES 支持第三方分词插件。在 ES 中的中文分词插件使用最为广泛的是 ik 插件。

ik 插件


既然是插件,就需要安装。注意,版本 5.0.0 起,ik 插件已经不包含名为ik的分词器,只含ik_smartik_max_word,事实上后两者使用得也最多。

ik 插件安装

官方安装说明:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

1.download or compile

optional 1

- download pre-build package from here: https://github.com/medcl/elasticsearch-analysis-ik/releases
- create plugin folder `cd your-es-root/plugins/ && mkdir ik`
- unzip plugin to folder `your-es-root/plugins/ik`

optional 2

- use elasticsearch-plugin to install ( supported from version v5.5.1 ):
- `./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip`

NOTE: replace 6.3.0 to your own elasticsearch version

2.restart elasticsearch

安装步骤翻译:

ik 下载地址(直接下载编译好了的 zip 文件,需要和 ES 版本一致):https://github.com/medcl/elasticsearch-analysis-ik/releases

在 elasticsearch 安装目录下plugins文件夹当中新建ik文件夹。

下载完成后解压elasticsearch-analysis-ik-7.8.0.zip将解压后的文件夹直接放入plugins/ik文件夹中.

重启 ES 即可。

使用 ik 插件的ik_smart分词器:

1
2
3
4
5
6
7
POST http://localhost:9200/_analyze
{
"analyzer":"ik_smart",
"text":"学生"
}


ES 响应:

1
2
3
4
5
6
7
8
9
10
11
12
13
{
"tokens": [
{
"token": "学生",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
}
]
}


这才符合我们的预期。那么 ik 插件中的ik_smartik_max_word有什么区别呢?简单来讲,ik_smart会按照关键字的最粗粒度进行分词,比如搜索 “北京大学” 时,我们知道 “北京大学” 是一个特定的词汇,它并不是指 “北京的大学”,我们不希望搜索出“四川大学”,“重庆大学” 等其他学校,此时 “北京大学” 不会被分词。而ik_max_word则会按照最细粒度进行分词,同样搜索 “北京大学” 时,我们也知道 “北京” 和“大学”都是一个词汇,所以它将会被分词为“北京大学”,“北京大”,“北京”,“大学”,显然如果搜索出现后三者相关结果,这会给我们带来更多无用的信息。

所以我们在进行搜索时,常常指定ik_smart为分词器。

ik 自定义词典

有时候一个词并不在 ik 插件的词库中,例如很多网络用语等。我们希望搜索 “小米手机” 的时候,只出现 “小米的手机” 而不会出现 “华为手机”、“OPPO 手机”,但“小米手机” 并不在 ik 词库中,此时我们可以将 “小米手机” 添加到 ik 插件的自定义词库中。

“小米手机” 使用ik_smart的分词结果:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
{
"tokens": [
{
"token": "小米",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
},
{
"token": "手机",
"start_offset": 2,
"end_offset": 4,
"type": "CN_WORD",
"position": 1
}
]
}

进入 ik 插件安装目录elasticsearch/7.8.0/plugins/ik/config,创建名为custom.dic的自定义词库,向文件中添加 “小米手机” 并保存。仍然是此目录,修改IKAnalyzer.cfg.xml文件,如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">custom.dic</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords"></entry>
<!--用户可以在这里配置远程扩展字典 -->
<!-- <entry key="remote_ext_dict">words_location</entry> -->
<!--用户可以在这里配置远程扩展停止词字典-->
<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>


重启 ES 后,再次通过ik_smart对 “小米手机” 进行分词,发现 “小米手机” 不再被分词。

创建映射指定分词器

在创建映射时,我们可以指定字段采用哪种分词器,避免我们在每次搜索时都指定。

  1. 创建 word 索引 PUT http://localhost:9200/word
  2. 创建 analyzer_demo 类型已经定义映射 Mapping
1
2
3
4
5
6
7
8
9
10
11
PUT http://localhost:9200/word/analyzer_demo/_mapping
{
"properties":{
"name":{
"type":"text",
"analyzer":"ik_smart"
}
}
}


  1. 查看 word 索引结构 GET http://localhost:9200/word

ES 响应:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
{
"word": {
"aliases": {},
"mappings": {
"analyzer_demo": {
"properties": {
"name": {
"type": "text",
"analyzer": "ik_smart"
}
}
}
},
"settings": {
"index": {
"creation_date": "1561304920088",
"number_of_shards": "5",
"number_of_replicas": "1",
"uuid": "A2YO9GpzRrGAIm2Q6rCoWA",
"version": {
"created": "5060099"
},
"provided_name": "word"
}
}
}
}

可以看到 ES 在对 name 字段进行分词时会采用ik_smart分词器。

参考文章地址 yulinfeng.gitbooks.io