你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
输入关键字进行搜索
搜索:
发现
分享
文章
活动
登录
即使是不成熟的尝试,也胜于胎死腹中的策略。
ik分词 自定义字典大小
Elasticsearch
| 作者
zhengtong0898
| 发布于2017年09月28日 | 阅读数:
2857
分享到:
QQ空间
新浪微博
微信
QQ好友
印象笔记
有道云笔记
请问自定义字典应该控制在多大或者多少个词比较好?
比如说我的词库文件有10个G,理论上讲,写入一份文档时, 拆token会花费大量时间, 查询时拆token也会花费大量的时间。。。。。
没有找到相关结果
已邀请:
与内容相关的链接
提交
1 个回复
Cheetah
赞同来自:
laoyang360
ik在这里分词的时候才用的字典数,比较适合这种不长的词,重复不多的,和hash相比有效率上的优势,但是空间上可能因为数据会有点大(可以优化),所以这里拆token和查询token效率是没有问题的,只是你一来就是10个G,这个没办法hold,还要reload,相当于2倍了,当然这里可能是你随便举得例子
综上所述,控制多少个词,多大没有一个定值,看你的业务需要,和你集群本身分配的内存等等
要回复问题请先
登录
或
注册
发起人
zhengtong0898
活动推荐
Jun
17
搜索客 Meetup 讲师招募(长期有效)
线上
·
6-17 周一
·
进行中
Jun
26
天命人, 你在吗?快拿走你的《黑神话:悟空》游戏,去开启神话冒险!
线上征文活动
·
6-26 周三
·
进行中
Jul
22
Gitee - Gitee AI 代金券大派送!
线上
·
7-22 周一
·
进行中
Jul
31
第1期 | 2024 搜索客社区 Meetup 线上直播活动
线上直播
·
7-31 周三
·
报名中
相关问题
除了设置mapping为not analyzied,还有其他方法让一个string字段不分词吗?
Elasticsearch查询时指定分词器
如何设置分配给elasticsearch的内存大小?
ik分词情况下“中国人民银行”为例,无法命中结果?
添加了ik自定义分词,之前入库的数据不能搜索出来,这个有什么好的解决方法?
ES配置IK分词器失败
Elasticsearch 分词搜索 - 精确查找
Elasticsearch中文分词器问题
ik 分词 远程扩展字典能配制调用频率吗
IK分词器对数字是不是不分词?
Shard大小官方推荐值为20-40GB, 具体原理呢?
问题状态
最新活动:
2017-09-28 14:20
浏览:
2857
关注:
3
人
1 个回复
Cheetah
赞同来自: laoyang360
综上所述,控制多少个词,多大没有一个定值,看你的业务需要,和你集群本身分配的内存等等