专栏名称: java一日一条

主要是讲解编程语言java，并且每天都推送一条关于java编程语言的信息

目录

相关文章推荐

51好读 › 专栏 › java一日一条

图解 ElasticSearch 原理

java一日一条 · 公众号 · Java · 2020-12-22 22:42

正文

请到「今天看啥」查看全文

Inverted Index
Stored Fields
Document Values
Cache

最最重要的 Inverted Index

如下图：

Inverted Index 主要包括两部分：

一个有序的数据字典 Dictionary（包括单词 Term 和它出现的频率）。
与单词 Term 对应的 Postings（即存在这个单词的文件）。

当我们搜索的时候，首先将搜索的内容分解，然后在字典里找到对应 Term，从而查找到与搜索相关的文件内容。

①查询“the fury”

如下图：

②自动补全（AutoCompletion-Prefix）

如果想要查找以字母“c”开头的字母，可以简单的通过二分查找（Binary Search）在 Inverted Index 表中找到例如“choice”、“coming”这样的词（Term）。

③昂贵的查找

如果想要查找所有包含“our”字母的单词，那么系统会扫描整个 Inverted Index，这是非常昂贵的。

在此种情况下，如果想要做优化，那么我们面对的问题是如何生成合适的 Term。

④问题的转化

如下图：

对于以上诸如此类的问题，我们可能会有几种可行的解决方案：

* suffix→xiffus * ，如果我们想以后缀作为搜索条件，可以为 Term 做反向处理。
(60.6384, 6.5017)→ u4u8gyykk，对于 GEO 位置信息，可以将它转换为 GEO Hash。
123→{1-hundreds, 12-tens, 123}，对于简单的数字，可以为它生成多重形式的 Term。

⑤解决拼写错误

一个 Python 库为单词生成了一个包含错误拼写信息的树形状态机，解决拼写错误的问题。

⑥Stored Field 字段查找

当我们想要查找包含某个特定标题内容的文件时，Inverted Index 就不能很好的解决这个问题，所以 Lucene 提供了另外一种数据结构 Stored Fields 来解决这个问题。

本质上，Stored Fields 是一个简单的键值对 key-value。默认情况下，ElasticSearch 会存储整个文件的 JSON source。

⑦Document Values 为了排序，聚合

即使这样，我们发现以上结构仍然无法解决诸如：排序、聚合、facet，因为我们可能会要读取大量不需要的信息。

请到「今天看啥」查看全文

推荐文章

哎咆科技 · 明年iPhone平均销售价将超过750美元

8 年前

社会学吧 · 新书 | 质性研究软件NVIVO指导手册

7 年前

微路况 · 这些年，撞车都撞出了怎样的奇葩事儿？|日报

7 年前

飞猪 · 徒步珠穆朗玛峰，是怎样的体验？上视频！

7 年前

python · 最全Pycharm使用教程-（二）

7 年前

移动版

51好读 - 微信公众号文章