Lucene里面的bloom过滤

Lucene | 作者 Charele | 发布于2024年03月21日 | 阅读数：4349

分享到：QQ空间新浪微博微信 QQ好友印象笔记有道云笔记

Lucene里面，有一个bloom过滤功能的格式。
它就是包装了一个老的格式（老格式还是起原来的作用）。

结果就是额外生成了一个bloom格式的文件，
其它没有任何变化。

10 个回复

Charele - Cisco4321

这样在执行比如termQuery时，如果bloom告诉你没有，就实现fast-fail
否则还是会用老办法去找。因为bloom不能告诉你有。

Charele - Cisco4321

新版本中的ES有了bloom功能（ES8.12.2截图），
它并没有直接用Lucene中那个现成的，而是自己“山寨”了一个。

看起来比Lucene那个实现要更简洁明了一些。

Charele - Cisco4321

说上面这个bloom过滤只是小case，

来看一个Lucene里面革新性的东西。
这个东西不是主流，缺省还是用现在的。

只是做了改变，做了些改变，可能会有对查询优化
这个新的格式叫BlockTreeOrdsPostingsFormat
（不管什么样子，都是PostingsFormat的子类实现）

这是老的现有的格式，

像doc,pos这些没有变化，因为还是用原来的东东去写去读。

原来的词索引，词字典文件tmd,tip,tim变成了tio, tipo（不要看前面的名字，看扩展名）

本质上就是FST表内容发生了变化。
下面说说发生了什么变化
（假设你已大致了解了现有格式，网上很多资源可以看）

Charele - Cisco4321

关于FST的内容，比如，它内部如何写，如何读，
其中的细节，相当的复杂。可以不管。

但FST里面存的是什么，以及get出来的东西代表什么意思，
这是肯定要知道的。不然你说你理解查询，跟本无从谈起。

先看看代码实现上的一个小异：

红色的代码，就是在建FST的时候，所有的词都搞完了，最后的步骤。
即形成“空块”，即前缀为空的block。
老格式，先会推两个空词（new BytesRef()）进去，
(就像new String("aaa")，是一个实串，而new String()就认为是一个空串）
而新格式，不会这么做。

这两种做法，结果的区别是什么呢？

Charele - Cisco4321

现在我们有这么些词，在现有的格式下，会这么形成块。
（假设min = 2, max = 3, 缺省这两值太大了，不好表述）

min = 2表示，块里最少得有2个条目，才能形成block
max =3 表示，一个块里最多只能有3个条目
这些感念不明白的可以看下大神的波客：
https://amazingkoala.com.cn/Lu ... Btip/

1 首先aaa开头的有3个，会形成block["aaa"] ("aaa"表示这个块的前缀）
2 “bbb"这个词，只有一个，它就不能形成块，所以是term
3 最后两个，形成block["ccc"]
4 最后，生成根块（我自己习惯叫空块，就是前缀是""的块）

上面，"ccc1", "ccc2"这两个词在最后，它们能形成块的原因就是，
系统会最后push两个空词进去，终结它们（见上楼），所以形成一个block

如果我不push空词，情况是什么样子的呢

Charele - Cisco4321

如果不推最后空词，它会这样分，最后的"ccc1, "ccc2"就不会形成块，
它会跟"bbb"一样，以term的方式存在于空块中（就是最大的那个块）

因为空块里有4个条目（一个block + 3个term)，超过了max=3的限制，
所以这个空块是个"地板块“, floor block，会分地板0，地板1
（是不是地板块，对于现在说的不重要，所以不细说了）

上面两种划分方式，不管如何，不会对结果产生影响。每个词还是能查到。
至于它为什么要这么改，，，

Charele - Cisco4321

http://examples.mikemccandless.com/fst.py
很多人都会拿这个来说明FST的样子，
比如我要找"aa"，沿着蓝线，把一路上找到的50+150=200就是aa的结果了
如果把这个FST看成一个map, 那就是Map<String, Long>类型的

这东西容易让人产生误解。
刚开始，我看这个东东，以为Lucene的FST就是这么存的。
里面存的是一个一个的词，查询时就这么来找。
后来发现跟本不是这样子的。

如果存的key是词，那get出来的是什么呢，文档号吗？还是什么别的？

Charele - Cisco4321

FST可以看成一个map,
实际中，其中的key，不是一个一个的词，而是块的前缀。
比如上面的"aaa", "ccc"。一个前缀就代表了一个块。

PS: 空前缀""（空块）逻辑上包括了所有的块，是所有其它块的root
它的key / value也能从map中取到，不过它并不存在这里。

value是什么呢，如果是普通块，
里面有3个指标（绿色的）（合在一个long数字里面）
1 fp
就是这个块，在tim文件里的地址

2 hasTerms
块如果按里面包含的东西来分，分为：
A 里只有term
B 里面既有term又有块
C 里面只有block
在A,B两种情况下，hasTerms=true

3 isFloor
是不是地板块，，，

块可以分为普通块和地板块，
紫色是说如果这个块是地板块，还会再存一些其它东西。
这是现有的版本的FST里面存的东西

Charele - Cisco4321

如果认真看过楼上大佬的博客和Lucene代码
就明白了FST是存在tip里面的（词索引），而每个词的统计信息是存在tim里的（词字典）
（tmd文件可以忽略，它存的是字段的统计信息）

在Lucene90BlockTreeTermsReader类里面

下面这个方法就是执行term查询的方法，如果返回true，它们会拿这个词的统计信息，从而算出打分，，，

这个类还有一个方法
public BytesRef next() throws IOException {
作用是取出这个字段的每个词，比如name字段，
它会得到"张三", "李四", "王小明",,,
开始想不明白有什么用，我要所有词做啥？后来才发现这是merge时用的

Charele - Cisco4321

上面就是现有版本FST的一些实际用途了。

现在说说变种格式，相对现有格式的改进，

FST里面key没有变化。
写进FST的value发生了变化。
紫色的，是原来的value(和原来一模一样）
它增加了两个long值，
开始位置和结束位置

要回复问题请先登录或注册

Lucene里面的bloom过滤

10 个回复

发起人

活动推荐

相关问题

问题状态

Lucene里面的bloom过滤

与内容相关的链接

10 个回复

发起人

活动推荐

相关问题

问题状态