橡皮、老虎皮、狮子皮哪一个最不好?

ik分词 自定义字典大小

Elasticsearch | 作者 zhengtong0898 | 发布于2017年09月28日 | 阅读数:2815

请问自定义字典应该控制在多大或者多少个词比较好?
 
比如说我的词库文件有10个G,理论上讲,写入一份文档时, 拆token会花费大量时间, 查询时拆token也会花费大量的时间。。。。。
已邀请:

Cheetah

赞同来自: laoyang360

ik在这里分词的时候才用的字典数,比较适合这种不长的词,重复不多的,和hash相比有效率上的优势,但是空间上可能因为数据会有点大(可以优化),所以这里拆token和查询token效率是没有问题的,只是你一来就是10个G,这个没办法hold,还要reload,相当于2倍了,当然这里可能是你随便举得例子
综上所述,控制多少个词,多大没有一个定值,看你的业务需要,和你集群本身分配的内存等等

要回复问题请先登录注册