用了Elasticsearch,一口气上5T

自己写了一个elasticsearch中文分词插件

Elasticsearch | 作者 tenlee | 发布于2020年11月20日 | 阅读数:2568

elasticsearch-analysis-hao主要参考了 IK 和 HanLP 其中有的源码是直接搬运的。 相比IK,比IK更智能,更准确,更快。 相比HanLp,比HanLP更轻量,分词更可控,没有一些智能的预测功能,并且HanLP也没有官方的ES插件。

主要是IK ik_max_word是穷举所有可能词,导致搜索一些不相关的也会被搜到。

任性冲动过分词结果居然有任性 性冲动 动过,那么搜性冲动就会把这个doc搜索到。

南京市长江大桥,结果是南京市 市长 长江大桥,那么搜市长会把这个doc搜索到。 把HanLP的 DijkstraSegment抄了过来,同时做了一些优化。

根据词频计算最短路,穷举出可能的词,而不是所有的词,如果穷举的词不对,可以调词频来纠正。

支持emoji。

支持元词,比如俄罗斯不会再拆分成俄和罗斯(罗斯是常用人名)。这样搜罗斯就不会把俄罗斯相关文档召回

不支持词性
已邀请:

leoboneking - 90后IT男

赞同来自:

你好,你能分享 自己写的中文分词插件吗 ? 学习学习

BKing - Double non. Open source software and dreamer (English Français Japanese Korean ) learners

赞同来自:

厉害

要回复问题请先登录注册