ES集群个别节点cpu使用率达到1000%以上

描述现象：一共21个节点的集群，时不时就有三个实例的cpu爆满，我使用top命令看最多到2000%左右，看日志显示是正在GC（日志有部分截图在下面），这导致集群不稳定，性能变差，甚至奔溃，这三个实例是再同一个物理机，每次出问题都是这三台（这三台是后面扩容的），我怀疑是否是硬件问题导致，但是看日志，并没有发现有硬件这块的错误。我重启这个物理机和集群后又恢复正常，有时需要重启3遍才能恢复正常。这个问题是没有规律的出现，有时一两个月发生一次，有时一两周发生一次。所有配置都是一样的。

虚拟化系统：pve 6.3 硬件配置：三星 2400 32G*10内存 E5-2690 v3 48核心cpu 万兆网卡系统盘256G ssd
系统版本：centos7.6
ES版本：elasticsearch-6.6.2
jdk版本：openjdk version "1.8.0_262"

生产环境ES集群共21个节点，3个master，18个data，共7个物理机，每个物理机上面3个虚拟机，一个虚拟机运行一个es实例，每个虚拟机配置是96G内存，20核心cpu（有超配的情况） , 磁盘 8T ssd

部分gc日志

jvm 配置是默认的，就修改了堆内存配置为31.8G，经过测试内存指针压缩是开启的，还是32位

这是data节点配置文件

这是master配置文件

2023/9/18 16:20 更新

热点线程 hot_threads（单拿出来问题节点部分）

::: {node-10-0-16-112}{5jaJrmXoQvyqspRYYmoUJw}{nSVycusZS_GKqDxqvhVpAg}{10.0.16.112}{10.0.16.112:9300}{ml.machine_memory=101379706880, rack=gz08, xpack.installed=true, ml.max_open_jobs=20, ml.enabled=true}
Hot threads at 2023-09-18T07:52:17.790, interval=500ms, busiestThreads=3, ignoreIdleThreads=true:

65.0% (325.1ms out of 500ms) cpu usage by thread 'elasticsearch[node-10-0-16-112][transport_worker][T#8]'
2/10 snapshots sharing following 6 elements
io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:656)
io.netty.channel.nio.NioEventLoop.processSelectedKeysPlain(NioEventLoop.java:556)
io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:510)
io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:470)
io.netty.util.concurrent.SingleThreadEventExecutor$5.run(SingleThreadEventExecutor.java:909)
java.lang.Thread.run(Thread.java:750)

58.1% (290.5ms out of 500ms) cpu usage by thread 'elasticsearch[node-10-0-16-112][transport_worker][T#7]'
2/10 snapshots sharing following 6 elements
io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:656)
io.netty.channel.nio.NioEventLoop.processSelectedKeysPlain(NioEventLoop.java:556)
io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:510)
io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:470)
io.netty.util.concurrent.SingleThreadEventExecutor$5.run(SingleThreadEventExecutor.java:909)
java.lang.Thread.run(Thread.java:750)
4/10 snapshots sharing following 9 elements
sun.nio.ch.EPollArrayWrapper.epollWait(Native Method)
sun.nio.ch.EPollArrayWrapper.poll(EPollArrayWrapper.java:269)
sun.nio.ch.EPollSelectorImpl.doSelect(EPollSelectorImpl.java:93)
sun.nio.ch.SelectorImpl.lockAndDoSelect(SelectorImpl.java:86)
sun.nio.ch.SelectorImpl.select(SelectorImpl.java:97)
io.netty.channel.nio.NioEventLoop.select(NioEventLoop.java:765)
io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:413)
io.netty.util.concurrent.SingleThreadEventExecutor$5.run(SingleThreadEventExecutor.java:909)
java.lang.Thread.run(Thread.java:750)
unique snapshot
sun.nio.ch.NativeThread.current(Native Method)
sun.nio.ch.SocketChannelImpl.write(SocketChannelImpl.java:466)
io.netty.channel.socket.nio.NioSocketChannel.doWrite(NioSocketChannel.java:405)
io.netty.channel.AbstractChannel$AbstractUnsafe.flush0(AbstractChannel.java:938)
io.netty.channel.nio.AbstractNioChannel$AbstractNioUnsafe.flush0(AbstractNioChannel.java:360)
io.netty.channel.AbstractChannel$AbstractUnsafe.flush(AbstractChannel.java:905)
io.netty.channel.DefaultChannelPipeline$HeadContext.flush(DefaultChannelPipeline.java:1396)
io.netty.channel.AbstractChannelHandlerContext.invokeFlush0(AbstractChannelHandlerContext.java:776)
io.netty.channel.AbstractChannelHandlerContext.invokeFlush(AbstractChannelHandlerContext.java:768)
io.netty.channel.AbstractChannelHandlerContext.flush(AbstractChannelHandlerContext.java:749)
io.netty.handler.logging.LoggingHandler.flush(LoggingHandler.java:265)
io.netty.channel.AbstractChannelHandlerContext.invokeFlush0(AbstractChannelHandlerContext.java:776)
io.netty.channel.AbstractChannelHandlerContext.invokeFlush(AbstractChannelHandlerContext.java:768)
io.netty.channel.AbstractChannelHandlerContext.flush(AbstractChannelHandlerContext.java:749)
io.netty.channel.ChannelDuplexHandler.flush(ChannelDuplexHandler.java:117)
io.netty.channel.AbstractChannelHandlerContext.invokeFlush0(AbstractChannelHandlerContext.java:776)
io.netty.channel.AbstractChannelHandlerContext.invokeFlush(AbstractChannelHandlerContext.java:768)
io.netty.channel.AbstractChannelHandlerContext.access$1500(AbstractChannelHandlerContext.java:38)
io.netty.channel.AbstractChannelHandlerContext$WriteAndFlushTask.write(AbstractChannelHandlerContext.java:1152)
io.netty.channel.AbstractChannelHandlerContext$AbstractWriteTask.run(AbstractChannelHandlerContext.java:1075)
io.netty.util.concurrent.AbstractEventExecutor.safeExecute(AbstractEventExecutor.java:163)
io.netty.util.concurrent.SingleThreadEventExecutor.runAllTasks(SingleThreadEventExecutor.java:404)
io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:474)
io.netty.util.concurrent.SingleThreadEventExecutor$5.run(SingleThreadEventExecutor.java:909)
java.lang.Thread.run(Thread.java:750)