你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

自己写了一个elasticsearch中文分词插件

Elasticsearch | 作者 tenlee | 发布于2020年11月20日 | 阅读数：3126

elasticsearch-analysis-hao主要参考了 IK 和 HanLP 其中有的源码是直接搬运的。相比IK，比IK更智能，更准确，更快。相比HanLp，比HanLP更轻量，分词更可控，没有一些智能的预测功能，并且HanLP也没有官方的ES插件。

主要是IK ik_max_word是穷举所有可能词，导致搜索一些不相关的也会被搜到。

任性冲动过分词结果居然有任性性冲动动过,那么搜性冲动就会把这个doc搜索到。

南京市长江大桥，结果是南京市市长长江大桥，那么搜市长会把这个doc搜索到。把HanLP的 DijkstraSegment抄了过来，同时做了一些优化。

根据词频计算最短路，穷举出可能的词，而不是所有的词，如果穷举的词不对，可以调词频来纠正。

支持emoji。

支持元词，比如俄罗斯不会再拆分成俄和罗斯（罗斯是常用人名）。这样搜罗斯就不会把俄罗斯相关文档召回

不支持词性

2 个回复

leoboneking - 90后IT男

你好，你能分享自己写的中文分词插件吗？学习学习

BKing - Double non. Open source software and dreamer (English Français Japanese Korean ) learners

厉害

要回复问题请先登录或注册

自己写了一个elasticsearch中文分词插件

2 个回复

发起人

活动推荐

相关问题

问题状态

自己写了一个elasticsearch中文分词插件

与内容相关的链接

2 个回复

发起人

活动推荐

相关问题

问题状态