身安不如心安,屋宽不如心宽 。

ES8.8 删除大索引导致节点无法加入集群

Elasticsearch | 作者 zmc | 发布于2023年08月29日 | 阅读数:1942

现象:使用ES8.8(向量搜索),会有大索引存在(500G~1T), 变更数据结构时操作删除索引(delete index_name),发现偶发出现节点突然无法加入集群的情况。(节点掉出集群,无法加入,索引暂时又无法被删除,出现red状态,基本无法自愈)
 
在低版本(6.8,7.17)的数据分析集群(或日志集群),单索引超过1T的情况非常多,delete 索引的时候非常正常。只有在ES8版本下删除带向量字段的index时会出现这种case。(ES8 删除普通日志大索引的case没有测试过)
 
是否有大佬遇到过类似的case~
已邀请:

Charele - Cisco4321

赞同来自:

我感觉跟这个向不向量没有关系吧。
 
贴出报错日志

zmc - ES PAAS、JuiceFS

赞同来自:

"log.level": "WARN", "message":"master not discovered yet: have discovered [{xxxx-es-data1-16}{LxPdx8hERr-gTeYLNw}{OkD9P-2tRDCDxv2Cw}{xxxx-es-data1-16}{11.11.11.11}{11.11.11.11:9300}{dir}{8.8.0}, {xxxx-es-master-0}{zGw9_OlpQEw2Y6qr1Cw}{ZnVrvOvjR7CspHLf3dg}{xxxx-es-master-0}{11.11.11.12}{11.11.11.12:9300}{imr}{8.8.0}, .............. discovery will continue using [127.0.0.1:9300, 127.0.0.1:9301, 127.0.0.1:9302, 127.0.0.1:9303, 127.0.0.1:9304, 127.0.0.1:9305, 10.44.15.74:9300, 10.44.23.189:9300, 10.44.27.160:9300] from hosts providers and [{xxxx-es-master-2}{FOs8QwDKQMdLbTFogng}{gxEv2tn9XEYj1SrJXA}...............{imr}{8.8.0}] from last-known cluster state; node term 193, last-accepted version 1655 in term 193; joining [{xxxx-es-master-1}{kH2FpjmdR9mm2zNU8_g}{U3imtDwNTDuH_sVQL9Q}{xxxx-es-master-1}{11.11.11.13}{11.11.11.13:9300}{imr}{8.8.0}] in term [193] has status [waiting for local cluster applier] after [28m/1680154ms]; for troubleshooting guidance, see https://www.elastic.co/guide/e ... ot%3B, "ecs.version": "1.2.0","service.name":"ES_ECS","event.dataset":"elasticsearch.server","process.thread.name":"elasticsearch[xxxx-es-data1-16][cluster_coordination][T#1]","log.logger":"org.elasticsearch.cluster.coordination.ClusterFormationFailureHelper","elasticsearch.cluster.uuid":"Dee3hckHxxxxagAcs1CRxw","elasticsearch.node.id":"LxPdx8hERr-gTxxxxx5YLNw","elasticsearch.node.name":"xxxx-es-data1-16","elasticsearch.cluster.name":"xxxx"}
 
 
从无法加入集群的节点(仅data角色节点)拉的日志。

Charele - Cisco4321

赞同来自:

这是一个很常见的报错吧
 
比如a,b,c (它们都有master角色,它们3个中选出master)
x (data角色,等于你报错这台)
 
如果a,b,c其中挂了1台,那没事。
如果挂了2台,那一台肯定成不了气候。等于集群挂了
在节点x上就会报这个错误。
 
xxxx-es-data1-16, xxxx-es-master-0”,
xxxx-es-data1-16应该是你本机吧,
xxxx-es-master-0,至少这个没挂。
 
你要做的事就是找出那些(master角色)的节点为什么挂了
可以找找相应节点下的ES报错,或者系统的日志

shuanglong - 因上努力,果上随缘

赞同来自:

我这边使用es8.x的向量索引删除的时候,也会出现这种掉节点的问题

要回复问题请先登录注册