elasticsearch-analysis-hao主要参考了 IK 和 HanLP 其中有的源码是直接搬运的。 相比IK,比IK更智能,更准确,更快。 相比HanLp,比HanLP更轻量,分词更可控,没有一些智能的预测功能,并且HanLP也没有官方的ES插件。
主要是IK ik_max_word是穷举所有可能词,导致搜索一些不相关的也会被搜到。
任性冲动过分词结果居然有任性 性冲动 动过,那么搜性冲动就会把这个doc搜索到。
南京市长江大桥,结果是南京市 市长 长江大桥,那么搜市长会把这个doc搜索到。 把HanLP的 DijkstraSegment抄了过来,同时做了一些优化。
根据词频计算最短路,穷举出可能的词,而不是所有的词,如果穷举的词不对,可以调词频来纠正。
支持emoji。
支持元词,比如俄罗斯不会再拆分成俄和罗斯(罗斯是常用人名)。这样搜罗斯就不会把俄罗斯相关文档召回
不支持词性
主要是IK ik_max_word是穷举所有可能词,导致搜索一些不相关的也会被搜到。
任性冲动过分词结果居然有任性 性冲动 动过,那么搜性冲动就会把这个doc搜索到。
南京市长江大桥,结果是南京市 市长 长江大桥,那么搜市长会把这个doc搜索到。 把HanLP的 DijkstraSegment抄了过来,同时做了一些优化。
根据词频计算最短路,穷举出可能的词,而不是所有的词,如果穷举的词不对,可以调词频来纠正。
支持emoji。
支持元词,比如俄罗斯不会再拆分成俄和罗斯(罗斯是常用人名)。这样搜罗斯就不会把俄罗斯相关文档召回
不支持词性
2 个回复
leoboneking - 90后IT男
赞同来自:
BKing - Double non. Open source software and dreamer (English Français Japanese Korean ) learners
赞同来自: