要不要再翻翻文档呢?

Elasticsearch:定制分词器(analyzer)及相关性

Elasticsearch | 作者 liuxg | 发布于2021年03月03日 | | 阅读数:1206

在许多的情况下,我们使用现有的分词器已经足够满足我们许多的业务需求,但是也有许多的情况,我们需要定制一个特定的分词器来满足我们特定的需求。我们知道要实现全文搜索,在文档被导入到 Elasticsearch 后,每个字段都需要被分析。这里就涉及到分词。如果你对分词器还不是很了解的话,那么请参考我之前的文章 “Elasticsearch: analyzer”。

一旦文档被导入到 Elasticsearch 之后,我们就可以对其中的字段进行搜索了。通常它会依据默认的 BM25 算法对每个文档的相关性进行打分。关于每个文档的分数是如何得到的,我们可以参照文档 “Elasticsearch:分布式计分” 来了解更多。这个打分会影响搜索返回结果的先后顺序。打分最高的文档排在返回结果的最前面,紧接着是排名第二的分数,依次类推。默认的 BM25 打分规则虽然能满足我们绝大多数的需求,但是在实际的使用中,有时不能完全满足我们的需求,比如我希望一首排名靠前的歌曲的会影响最终的得分,离我们位置最近的新闻排在前面,最近发生的新闻优先排在许多年前的新闻之前。针对这些特殊的需求,我们需要定制分数的算法。

在今天的展示中,我将展示如何实现一个定制的分词器 (custom analyzer)及定制相关性。
Elasticsearch:定制分词器(analyzer)及相关性
原文链接:https://elasticstack.blog.csdn ... 78163

[尊重社区原创,转载请保留或注明出处]
本文地址:http://elasticsearch.cn/article/14256


0 个评论

要回复文章请先登录注册