你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
输入关键字进行搜索
搜索:
发现
分享
文章
活动
登录
要不要再翻翻文档呢?
ik分词 自定义字典大小
Elasticsearch
| 作者
zhengtong0898
| 发布于2017年09月28日 | 阅读数:
3095
分享到:
QQ空间
新浪微博
微信
QQ好友
印象笔记
有道云笔记
请问自定义字典应该控制在多大或者多少个词比较好?
比如说我的词库文件有10个G,理论上讲,写入一份文档时, 拆token会花费大量时间, 查询时拆token也会花费大量的时间。。。。。
没有找到相关结果
已邀请:
与内容相关的链接
提交
1 个回复
Cheetah
赞同来自:
laoyang360
ik在这里分词的时候才用的字典数,比较适合这种不长的词,重复不多的,和hash相比有效率上的优势,但是空间上可能因为数据会有点大(可以优化),所以这里拆token和查询token效率是没有问题的,只是你一来就是10个G,这个没办法hold,还要reload,相当于2倍了,当然这里可能是你随便举得例子
综上所述,控制多少个词,多大没有一个定值,看你的业务需要,和你集群本身分配的内存等等
要回复问题请先
登录
或
注册
发起人
zhengtong0898
活动推荐
Jun
17
搜索客 Meetup 讲师招募(长期有效)
线上
·
6-17 周一
·
进行中
Apr
25
第25届 GOPS 全球运维大会暨研运数智化技术峰会 · 深圳站
深圳
·
4-25 周五
·
报名中
Apr
26
【未来智造:机器⼈软件系统技术前沿】OSC源创会·深圳站·112期
深圳
·
4-26 周六
·
报名中
May
15
Workshop | 搜索服务统一治理(跨引擎多个集群监控管理、流量管控、服务编排)
北京
·
5-15 周四
·
报名中
May
16
2025XCOPS智能运维管理人年会
广州
·
5-16 周五
·
报名中
相关问题
除了设置mapping为not analyzied,还有其他方法让一个string字段不分词吗?
Elasticsearch查询时指定分词器
如何设置分配给elasticsearch的内存大小?
ik分词情况下“中国人民银行”为例,无法命中结果?
添加了ik自定义分词,之前入库的数据不能搜索出来,这个有什么好的解决方法?
ES配置IK分词器失败
Elasticsearch 分词搜索 - 精确查找
Elasticsearch中文分词器问题
ik 分词 远程扩展字典能配制调用频率吗
IK分词器对数字是不是不分词?
Shard大小官方推荐值为20-40GB, 具体原理呢?
问题状态
最新活动:
2017-09-28 14:20
浏览:
3095
关注:
3
人
1 个回复
Cheetah
赞同来自: laoyang360
综上所述,控制多少个词,多大没有一个定值,看你的业务需要,和你集群本身分配的内存等等