用了Elasticsearch,一口气上5T

线上大数据实时系统,如何正确重启Es

Elasticsearch | 作者 win1027 | 发布于2016年05月23日 | 阅读数:8733

https://www.elastic.co/guide/e ... .html
根据官方文档重启节点,需要大量的时间来恢复分片,因为是实时系统,重启时不能停止索引数据。
 
1T的数据,需要耗时一个上午才恢复完,关键是恢复期间整个集群的负载都升高,查了很多资料,都说是这样重启的,难道es对于重启这么普通的运维都没有一个很好的解决方案?
已邀请:

win1027

赞同来自:

有线上大数据的操作的人,给点经验呀,重启这么慢这么耗性能,es怎么满足 容忍网络分区(P) 这个特性的?

win1027

赞同来自:

我线上机器是24核,128G内存,12个普通磁盘组成的rain0,1T的数据,重启恢复完需要耗时8个小时,且期间负载较高,这个太难接受了,如果网络波动,不是很容易就造成集群不稳定

win1027

赞同来自:

没有人来分享下经验吗,这个定时炸弹在线上跑着让人寝食难安呀。。。补充下es的版本是2.1.0

flowaters

赞同来自:

同意nodexy的观点,升级到另一套集群上,自己想办法数据同步。

ValarMorghulis - ELK使用者

赞同来自:

同样有楼主的困惑问题,我一个ES集群有50个node,60T的数据,并且数据在实时的接入,如果重启一个节点,集群又重新恢复,发现非常耗时,另外关于ES集群的配置文件修改又是一个大问题,同样需要重启,ES重启恢复这块是一个定时炸弹,不清楚大家是如何解决这个问题的

novia - 1&0

赞同来自:

没有那么慢吧,我1.14T数据,重启也就10分钟左右啊

novia - 1&0

赞同来自:

就设置了这几个参数
indices.recovery.max_bytes_per_sec: 250mb
gateway.expected_data_nodes: 5
gateway.recover_after_time: 5m
gateway.recover_after_data_nodes: 4
 
重启也就10分钟,数据就能恢复完成
 
2个master,5个node

disheng

赞同来自:

集群中单节点重启可以设置分片不进行自动均衡,然后将分片移动到其他节点上进行重启,这样虽然慢,但是服务是不停止的
 

要回复问题请先登录注册