如何深入理解fieldData

Elasticsearch | 作者 Charele | 发布于2022年05月24日 | 阅读数：2601

这个主题，也许你会说，就是为了聚合一个text类型的字段，
加上"fielddata": true参数，就可以了。
是这样子的。

不过我说的不是那个，我说的是keyword类型的fieldData数据的加载过程，
因为我们通常用keyword这种来做聚合的。（text类型的加载，大同小异）

也许这个主题，有点难理解。
不过这是理解桶聚合的关键，这样你才会晓得“桶”是怎么来的。

虽然这里说的，好像跟聚合没关系，但这里的加载数据，和你在执行桶聚合时的加载，是一样的。
执行的是同一个方法。
以这儿为切入点，可能比较容易一点。
首先新建这么一个简单索引，

这两个参数，是我特意设定的，上面这么一个参数呢，就是为了让它显式加载。
（如果不显式加载，在你执行桶聚合的时候，它也会加载）

下面这个参数，一般没人会去特定设置它。
缓不缓存，对我们讨论的没关系。这里不缓存，可以大大简化我们的问题。

7 个回复

Charele - Cisco4321

1
这个截图，是warm时，会执行的
warmer机制，就不多说了，关键一点：它只对两种类型的数据起作用
1是加了"eager_global_ordinals": true参数的
2是nested类型的
是不是还有其它，我没看到，也许会有。

注意：这个方法，是每增加一个新段，就会执行一次的。
比如你插入一条数据（因为有1秒1次的refresh），就会增加一个新段。

绿色的，就是为什么只有加了"eager_global_ordinals": true参数的字段会在这儿起作用
紫色的，代码里面写错了，应该是field名，而不是索引名，这个没啥
红色的三个方法，是本文的重点。尤其是第二个。

Charele - Cisco4321

2
先说上楼红1处

1> 它由fieldType的实际子类产生了一个builder
2> 然后取一个cache，取不到则新建一个
注意：在每个索引里，会对每个（需要处理的）字段，都有这么一个cache对像，用来缓存数据
由于我们的设置，这里是一个不缓存的类型，黄框里的。由于不缓存，所以这个cache对象，只是个形式。

3> 然后用上面的builder，产生一个IndexFieldData具体子类

Charele - Cisco4321

3
上面说道 “由fieldType的实际子类产生了一个builder”，
如果你的字段是keyword类型，很简单:(它最后build())，
产生的是一个"SortedSetOrdinalsIndexFieldData"对像，记住这个就行了。

下面我提一下如果字段是text，会是什么情况：
(text类型并不是我们关注的，这里只是顺便提一下）

是的，也许你看见过这个报错。这就是你在用一个text执行聚合时发生的现像
在执行聚合时，也会执行同样的方法。这说明了我们的方向并没有错！

Charele - Cisco4321

4

1楼红方法1说完了，现在说红方法2。
开始说过，每次插入一条数据时，都会执行。

这个ElasticsearchDirectoryReader类是Lucene DirectoryReader的子类，里面包括了段。用过Lucene的就晓得。

每次执行时，这个reader对像都是不一样的，
（假定：每插入一条就会产生一个新段，且没有merge过程）
第一次执行，reader会包括一个段，第二次执行，reader里就会有两个段，，，，，，

因为有许多段，段有段自己的fieldData，都是各自为政的，并不统一。
loadGlobal()方法，目的就是找到一个统一的，全局的fieldData

执行时，就是传入的这个reader对像

Charele - Cisco4321

5
开始看那个loadGlobal方法，这图，后面还会返回来看

紫框里的，只有你是一个段的时候才会发生。
因为只有一个段，所以这个段里的就是全局的。
很少有这种情况，除非你只有一个文档，或者你做过forceMerge合并成一个，然后也没加新数据。
注意：这里的这个this，是指SortedSetOrdinalsIndexFieldData 这个类对像！（见上文）

Charele - Cisco4321

6 接上楼
由于我们开始选择了“不缓存”，
所以没有缓存那一些额外的步骤（否则会很麻烦），直接到了这里：

首先说一个概念，fieldData，分为索引的，和叶子的，即段内的，（就是大的和小的的关系）
分别用IndexFieldData， LeafFieldData 类来表示。

由于有多个段，我们需要把各个段里的小的，整合成一个大的，就是这么个意思。
红色处，就是取得每个段里的小的fieldData，

蓝色处，就是取得每个段里的ordinals值
这个ordinals如何得来的，就是Lucene的方法了。

绿色处，就是把多个ordinals值合并成一个globalOrdinals（这就是我们聚合所需要的东西！！！）
看下这个Lucene类OrdinalMap的注释：

它就是有这么一个功能。提供了方法，至于它如何实现的，这就要看Lucene代码了。
有兴趣的同学可以研究下下。

最后返回一个GlobalOrdinalsIndexFieldData对像（看名字就知道这是啥了），返回
注意：这个对像，里面有红色和绿色的东西。蓝色的就不需要了，因为已经合并成绿色的了。

Charele - Cisco4321

7
接上楼，我们得到了个GlobalOrdinalsIndexFieldData对像，
看5楼黄框处，判断为真，下面来分析这个东东

要回复问题请先登录或注册

如何深入理解fieldData

7 个回复

发起人

活动推荐

相关问题

问题状态

如何深入理解fieldData

与内容相关的链接

7 个回复

发起人

活动推荐

相关问题

问题状态