es节点突然就不响应请求了,iowait 20000+

Elasticsearch | 作者 famoss | 发布于2017年07月22日 | 阅读数:2662

最近发现机器运行好好的,突然就不能读写数据了,bulk active thread一直处于饱和状态。用mpstat看了下,iowait达到20000+,不过iotop看读写基本都是空的。
本来以为机器问题,机器重启后又能恢复正常,线上10几台机器,最近接二连三出。 请问会是什么原因.
 
文件系统:ext4
es:5.2.2
硬盘:raid0
已邀请:

Xargin

赞同来自:

gc?

kennywu76 - wood@Ctrip

赞同来自:

ES进程状态是否进入了D状态?这个也只能看看内核日志是否有什么线索。 
 
之前我们遇到过类似的问题,起因分别是开了NUMA和使用了xfs。 但之前你说你们NUMA关了,xfs也换成了ext4,所以我也不清楚具体你这个问题是什么引起的。
 
 

famoss

赞同来自:

先备注下。
问题重现了,这个时候 把所有es结点都杀掉,裸机测试硬盘。用fio测试,硬盘写入只能达到3M每秒。iowait特别高,现象跟es出问题的时候一样。。
现在是多块ssd盘做的raid0.应该不是硬件有问题,最近隔三差五不同的机器爆出这个问题,只不过有几台出问题的概率特别大。
 
机器重启下,会恢复,不过跑一阵子又跪。
centos7.2
@kennywu76 @medcl

要回复问题请先登录注册