操作系统:windows server 2008 R2
ES版本:6.7.1
JDK版本:1.8.0_251-b08
两个节点分别放在两台服务器上,一个数据节点,一个主节点。
数据节点日志信息见附件。
背景:
一开始部署ES没有做任何优化,后来数据增长速度过快,五个分片总大小接近500G,ES不断增加非堆内存的使用导致服务器宕机,重启服务器后,ES无法启动,索引1无法恢复,后续进行调整,需要建立6个节点的集群才能正常恢复索引1,但是仍然会有掉节点的情况发生,并且服务器资源不足以部署这么多节点,最后将400G的索引1关闭,用3个节点建的一个小集群新建了一个新的索引2,索引2数据写了2M左右数据节点的其中一个就会频繁挂掉,后面为了节约资源,用目前的两个节点建了一个新索引3,索引3写了1M左右就会挂掉,目前最新的索引3是7个分片。
问题:
现在只有索引处于关闭状态,数据节点才能正常保持启动,只要打开索引,数据节点就会闪退,并且控制台和日志无报错。
补充:
索引3之前挂掉之后,修改了一下jvm配置,又可以正常运行,但是到第二天五点开始写数据时,就又挂了。
目前数据节点服务器总可用内存为20G,主节点分配的4G内存。存储总共4TB,剩余300+G。
当有大量写入操作或者大量读取操作进行时,数据节点会直接闪退,然后主节点"远程主机强迫关闭了一个现有的连接",最终失去连接。
2021.06.07 补充:
当存储加了1TB之后,数据节点就不会闪退了,并且运行了近3天,没有出现问题,但是之前配置中也配过存储相关配置,为什么会出现这种情况,有大佬指点一下吗?
之前存储配置:
cluster.routing.allocation.disk.threshold_enabled: true
cluster.routing.allocation.disk.watermark.low: 40G
cluster.routing.allocation.disk.watermark.high: 30G
cluster.routing.allocation.disk.watermark.flood_stage: 20G
ES版本:6.7.1
JDK版本:1.8.0_251-b08
两个节点分别放在两台服务器上,一个数据节点,一个主节点。
数据节点日志信息见附件。
背景:
一开始部署ES没有做任何优化,后来数据增长速度过快,五个分片总大小接近500G,ES不断增加非堆内存的使用导致服务器宕机,重启服务器后,ES无法启动,索引1无法恢复,后续进行调整,需要建立6个节点的集群才能正常恢复索引1,但是仍然会有掉节点的情况发生,并且服务器资源不足以部署这么多节点,最后将400G的索引1关闭,用3个节点建的一个小集群新建了一个新的索引2,索引2数据写了2M左右数据节点的其中一个就会频繁挂掉,后面为了节约资源,用目前的两个节点建了一个新索引3,索引3写了1M左右就会挂掉,目前最新的索引3是7个分片。
问题:
现在只有索引处于关闭状态,数据节点才能正常保持启动,只要打开索引,数据节点就会闪退,并且控制台和日志无报错。
补充:
索引3之前挂掉之后,修改了一下jvm配置,又可以正常运行,但是到第二天五点开始写数据时,就又挂了。
目前数据节点服务器总可用内存为20G,主节点分配的4G内存。存储总共4TB,剩余300+G。
当有大量写入操作或者大量读取操作进行时,数据节点会直接闪退,然后主节点"远程主机强迫关闭了一个现有的连接",最终失去连接。
2021.06.07 补充:
当存储加了1TB之后,数据节点就不会闪退了,并且运行了近3天,没有出现问题,但是之前配置中也配过存储相关配置,为什么会出现这种情况,有大佬指点一下吗?
之前存储配置:
cluster.routing.allocation.disk.threshold_enabled: true
cluster.routing.allocation.disk.watermark.low: 40G
cluster.routing.allocation.disk.watermark.high: 30G
cluster.routing.allocation.disk.watermark.flood_stage: 20G
0 个回复