疲劳是最舒适的枕头,努力工作吧。

spark调用bulkprocessor批量入库es,存在少量丢数

Elasticsearch | 作者 liangfuru2020 | 发布于2020年08月20日 | 阅读数:2260

elasticsearch使用spark调用bulkprocessor批量入库es,2亿数据量丢数几百条不知道怎么定位丢数,index字段数据类型已定制成全keyword类型,似乎不是因为类型导致丢数,数据源是标准交易数据,脏数据的概率比较低,请问大家有思路定位分析一下丢数原因
已邀请:

locatelli

赞同来自:

在ES这端有看到这么错误或者警告吗?
这个问题更有可能是在spark或者源数据。如果是某个spark的task失败并没有重试,那么应该是spark的责任来确保重试,而且日志里会有报错。
如果两端都没有报错,那源数据里出现了重复的可能性很大。

Charele - Cisco4321

赞同来自:

首先确定数据是不是真的少了,还是统计有误。
没用过你说的Spark的方式导入ES,所以不知道是怎么操作的。
 
如果是用自动文档id的话,不应该出现少数据的情况啊
如果是手动指定的文档id,就另当别论了。

要回复问题请先登录注册