环境:
目前ES 的版本是6.3.2的版本,有5个master节点和10个data节点。
故障:
读写流量将data节点打挂,所有的data节点的reset接口获取请求阻塞,通过日志发现data节点和master节点的通讯失败,刚开始的时候只能通过master节点的reset查看集群情况,但是一段时间之后master节点的reset也阻塞,并且提示not discovery master。
疑问:
1、data节点由于读写请求增长导致reset阻塞,最后和集群的通信提示timeout,这种情况在流量一旦上来或者异常的时候经常发生,有什么办法能够解决这个问题吗?或者说流量达到节点的上限的时候直接rejected掉,至少还能对外提供服务,而不是整个节点挂掉。有尝试修改过active、queue等值,但是没有效果。
2、一旦流量上来,首先是极个别的data记得被打挂,然后逐步所有的data节点被打挂。这个时候滚动重启data节点并没有太大的效果,重启之后的data还是无法加入集群,只能首先停止所有的data节点,然后依次启动这个时候才能加入集群,这个是什么原因导致的呢?
3、master作为协调节点,查看日志发现queue tasks等这些好像只是针对data数据节点,是否master节点上没有queue相关的限制?若是没有限制的话有没有相关的参数做限制呢?
目前ES 的版本是6.3.2的版本,有5个master节点和10个data节点。
故障:
读写流量将data节点打挂,所有的data节点的reset接口获取请求阻塞,通过日志发现data节点和master节点的通讯失败,刚开始的时候只能通过master节点的reset查看集群情况,但是一段时间之后master节点的reset也阻塞,并且提示not discovery master。
疑问:
1、data节点由于读写请求增长导致reset阻塞,最后和集群的通信提示timeout,这种情况在流量一旦上来或者异常的时候经常发生,有什么办法能够解决这个问题吗?或者说流量达到节点的上限的时候直接rejected掉,至少还能对外提供服务,而不是整个节点挂掉。有尝试修改过active、queue等值,但是没有效果。
2、一旦流量上来,首先是极个别的data记得被打挂,然后逐步所有的data节点被打挂。这个时候滚动重启data节点并没有太大的效果,重启之后的data还是无法加入集群,只能首先停止所有的data节点,然后依次启动这个时候才能加入集群,这个是什么原因导致的呢?
3、master作为协调节点,查看日志发现queue tasks等这些好像只是针对data数据节点,是否master节点上没有queue相关的限制?若是没有限制的话有没有相关的参数做限制呢?
2 个回复
tongchuan1992 - 学无止境、学以致用
赞同来自:
Charele - Cisco4321
赞同来自: