使用 dmesg 来查看一些硬件或驱动程序的信息或问题。

集群中某节点写入和查询时队列容易堆积,负载经常跑满,其他节点基本正常

Elasticsearch | 作者 shwtz | 发布于2019年09月09日 | 阅读数:1795

集群中有7个data node,用于日志收集存储。

其中某个几点,在存储索引的过程中,就经常load跑满,如果再查询最近一段时间的数据,搜索线程也直接爆了。
但是其他节点基本上没有这个问题。这种情况是这个服务器自身的问题,还是集群的问题呢?

数据量不小,最近30天有接近100亿的数据量。平均每天100多GB(算上副本的话,200~300GB),每天2~3亿数据。。

另外,我发现在索引过程中,如果某个数据节点出现bulk 阻塞,返回429错误,对集群的整体写入也有影响,其他节点貌似都要等待这个节点处理完。对于这种情况,能不能让其他节点不等待这个阻塞住的节点,持续处理和导入新数据?
否则,每次这个节点出现load跑满,集群的整体写入速度就降下来了。这样就会导致数据全面延迟。。。
 
下图是集群中有查询最近30天数据的请求时的部分节点线程池状况,其中node-5经常跑满load,其他节点基本上是没多大问题的:
线程池.png

 
 
已邀请:

printf_uck - 1024

赞同来自:

node-5是什么节点,有角色吗,还是单纯的data节点?写入的时候指定了routingID吗

yozhi

赞同来自:

可以看看分片分配是否均匀,或者机器硬件配置,参数配置是否一致

klh666666

赞同来自:

是否集群的data.path  设置的数值比较大

要回复问题请先登录注册