集群 3 个节点,都是 2c4g ,机器是 aws 的。es node 节点没有掉线,index 状态都是 green 。
线上监控到写 es 操作耗时高,查看日志报错‘ShardNotFoundException’,显示往 monitoring-es-7-xxxx 的 index 写数据报错。
利用 /_cat/shards 命令查看发现报错 index replica ,docs 、store 都不显示,手动 reroute 把这个 replica 分配到其他 node 报错消失。但是过几天这个监控日志 index 只要分配到之前报错的 node ,就有可能出现日志写不进的情况,但也不是 100%。目前还没有遇到过业务 index 写入失败的情况,可能是数据量比较小。
有大佬遇到过类似监控日志写入报错问题吗?可能会是哪些原因?
0 个回复