不为失败找理由,要为成功找方法。

elasticsearch角色分离之后,master节点作为协调节点被打挂

Elasticsearch | 作者 zerolh | 发布于2022年10月13日 | 阅读数:2244

环境:
目前ES 的版本是6.3.2的版本,有5个master节点和10个data节点。
 
故障:
读写流量将data节点打挂,所有的data节点的reset接口获取请求阻塞,通过日志发现data节点和master节点的通讯失败,刚开始的时候只能通过master节点的reset查看集群情况,但是一段时间之后master节点的reset也阻塞,并且提示not discovery master。
 
疑问:
1、data节点由于读写请求增长导致reset阻塞,最后和集群的通信提示timeout,这种情况在流量一旦上来或者异常的时候经常发生,有什么办法能够解决这个问题吗?或者说流量达到节点的上限的时候直接rejected掉,至少还能对外提供服务,而不是整个节点挂掉。有尝试修改过active、queue等值,但是没有效果。
 
2、一旦流量上来,首先是极个别的data记得被打挂,然后逐步所有的data节点被打挂。这个时候滚动重启data节点并没有太大的效果,重启之后的data还是无法加入集群,只能首先停止所有的data节点,然后依次启动这个时候才能加入集群,这个是什么原因导致的呢?
 
3、master作为协调节点,查看日志发现queue tasks等这些好像只是针对data数据节点,是否master节点上没有queue相关的限制?若是没有限制的话有没有相关的参数做限制呢?
已邀请:

tongchuan1992 - 学无止境、学以致用

赞同来自:

master节点5台着实有点多,可以单独搞两台作为协调节点,查询去查协调节点。后面你说的那些配置是在配置文件中可以配置的,我用的是5.X版本。

Charele - Cisco4321

赞同来自:

贴下报错可能比你描述更有用

要回复问题请先登录注册