怎么又是你

es索引存储膨胀过快的原因?

Elasticsearch | 作者 poka | 发布于2021年12月31日 | 阅读数:1803

es版本:7.3
操作系统:centos 7.3 
 
集群环境,索引按日期滚动。现在发现,同样是五千万条数的索引 , 最新的索引占用已达到100G;而之前同样五千万条数的索引,存储空间占用才30G左右。
 
两个索引,映射基本没有大的改变。只是最新生成的索引有一列做了分词,之前是keyword类型.  不过该列条数才几十万,应该不会对存储造成这么大的差异。
另外早期的分片数是8个,现在最新的分片数是5个, 副本数都是0;
其它配置基本都一样
 
 
所以,会是什么原因造成存储上这么大的差异呢
已邀请:

laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net

赞同来自:

第一:出现类似问题,找差异是核心。
在您的描述中“映射基本没有大的改变”,变化的点是需要您着重关注的点,这里可能就是问题的关键。
 
第二:更新数据的时候,有没有发生过数据覆盖导致版本更新的情况,这时候着重需要排查。
类似问题,做一下段合并后再观察,可能就能得到问题所在。

要回复问题请先登录注册