版本ES7.3.1
作用日志采集
架构 filebeat采集 zookeeper kafka logstash ES kibana
5台服务器做集群,每台服务器启动2个实例,JVM 31GB
分布
"node data" : 10,
"node ingest" : 10,
"node master" : 5,
服务器系统centos7.4
内存754
CPU 12核心 48逻辑CPU
磁盘存储
1、8快960GB 做的raid5 磁盘名称/data
2、NVMe卡:1块1.6TB /data1
每台服务器的第一个实例数据存到test 第二个实例寸到test2
index分片
10个主分片 1个副本分片
参数调整:"refresh_interval": "60s"
问题:5台服务器中3台服务器突然僵死无法访问,ssh无响应,登录后台查看只有一台服务器有部分日志命令行无法操作,另外2台无响应但是为恢复业务重启服务器处理,重启服务器后集群状态正常,分片黄色过了一段时间后自动恢复并显示绿色,查看服务器和es实例的CPU 内存都不高,CPU等待IO有升高,服务器的IO突增后服务器无响应。
es报错日志
服务器日志
服务器内存
服务器CPU
服务器IO
服务器网络
ES实例
作用日志采集
架构 filebeat采集 zookeeper kafka logstash ES kibana
5台服务器做集群,每台服务器启动2个实例,JVM 31GB
分布
"node data" : 10,
"node ingest" : 10,
"node master" : 5,
服务器系统centos7.4
内存754
CPU 12核心 48逻辑CPU
磁盘存储
1、8快960GB 做的raid5 磁盘名称/data
2、NVMe卡:1块1.6TB /data1
每台服务器的第一个实例数据存到test 第二个实例寸到test2
index分片
10个主分片 1个副本分片
参数调整:"refresh_interval": "60s"
问题:5台服务器中3台服务器突然僵死无法访问,ssh无响应,登录后台查看只有一台服务器有部分日志命令行无法操作,另外2台无响应但是为恢复业务重启服务器处理,重启服务器后集群状态正常,分片黄色过了一段时间后自动恢复并显示绿色,查看服务器和es实例的CPU 内存都不高,CPU等待IO有升高,服务器的IO突增后服务器无响应。
es报错日志
服务器日志
服务器内存
服务器CPU
服务器IO
服务器网络
ES实例
3 个回复
byx313 - BLOG:https://www.jianshu.com/u/43fd06f9589c
赞同来自:
Charele - Cisco4321
赞同来自:
匿名用户
赞同来自:
内存754
CPU 12核心 48逻辑CPU
磁盘存储
1、8快960GB 做的raid5 磁盘名称/data
2、NVMe卡:1块1.6TB /data1
真实浪费资源啊。。。。