spark调用bulkprocessor批量入库es，存在少量丢数

Elasticsearch | 作者 liangfuru2020 | 发布于2020年08月20日 | 阅读数：2787

elasticsearch使用spark调用bulkprocessor批量入库es，2亿数据量丢数几百条不知道怎么定位丢数，index字段数据类型已定制成全keyword类型，似乎不是因为类型导致丢数，数据源是标准交易数据，脏数据的概率比较低，请问大家有思路定位分析一下丢数原因

2 个回复

在ES这端有看到这么错误或者警告吗？
这个问题更有可能是在spark或者源数据。如果是某个spark的task失败并没有重试，那么应该是spark的责任来确保重试，而且日志里会有报错。
如果两端都没有报错，那源数据里出现了重复的可能性很大。

Charele - Cisco4321

首先确定数据是不是真的少了，还是统计有误。
没用过你说的Spark的方式导入ES，所以不知道是怎么操作的。

如果是用自动文档id的话，不应该出现少数据的情况啊
如果是手动指定的文档id，就另当别论了。

要回复问题请先登录或注册