ES 5.1.1 每到固定时间点就会shard failed

ES 5.1.1 版本 ,JDK 1.8.0_73。
用storm 高并发写ES。
每到固定的00:02,06:02,12:02,18:02,通过_cat/tasks查看,会有很多start_recovery任务,

1001.png

同时会有多个shard变为UNASSIGNED或者INITIALIZING状态。

1000.png

 
过一段时间后,这个索引会变为red.
把rebalance禁掉并max_thread_count设为1,还是存在该问题。
只能用allocate_empty_primary方式恢复,但是会丢失数据。
请教各位,有其他人遇到该问题吗?请各位指点下
已邀请:

highmoutain

赞同来自:

报错日志如下:
1003.png

medcl - Elastic 🇨🇳 !

赞同来自:

时间这么有规律啊,你有什么定时任务么?

kennywu76 - wood@Ctrip

赞同来自:

看起来是磁盘上的lucene文件损坏了。  查一下/var/log下的linux内核日志,看是否有磁盘出现坏道了。

vearne - stay foolish stay hungry

赞同来自:

index好歹还是设个副本吧,要不然丢数据也受不了啊

highmoutain

赞同来自:

感谢大家的热心回复,问题已经确定了,是华为服务器的硬件问题。同样的硬件配置 软件配置,在DELL服务器上是没有问题的。os和raid是我们的运维自己安装的,问题也可能出在os raid上。

要回复问题请先登录注册