两台es集群 ,一台机器阻塞,另一台需要3~4分钟的时间才能恢复

Elasticsearch | 作者 guoliang_1992 | 发布于2017年07月25日 | 阅读数:2690

问题描述:
搭了两台es集群,数据量大概在两千万量级,我们测试组的同学通过 gdb -p pid[es进程号]把其中一台阻塞了。结果另一台也不能访问了。直到3~4分钟后,es才能重新访问【阻塞的那台机器仍然处于阻塞状态】
补充:
如果阻塞的是master那台机器,恢复时间相对会长一些,
而阻塞的是非master机器,恢复时间就相对短一些,但间隔不是太大
 
想问:
1:这个有什么好的办法能缩短es恢复时间吗?
2:在这3~4分钟之间未阻塞的那台机器都做了什么事情?
 
谢谢大家
 
 
已邀请:

medcl - 今晚打老虎。

赞同来自: laoyang360 guoliang_1992

如果是Master节点阻塞了,会要重新进行选主,默认会有一个超时等待时间,默认30s,会尝试3次,即30s*3,然后再开始进行选主动作。
 
  1. 缩短重新选主时间可以缩短超时设置,太短其实不一定合理,master因为各种原因(比如网络,GC)可能会存在偶然中断的情况,频繁选主也会影响集群性能,需要适当容忍。设置文档:https://www.elastic.co/guide/e ... ction
  2. ​等待超时,重新选主,集群状态重新同步。

 

要回复问题请先登录注册