SparkStreaming 写 ES可能遇到的问题

Elasticsearch | 作者 Dapor | 发布于5 天前 | 阅读数:63

模式: Kafka 0.9 => SparkStreaming 2.1 => ES 6.4
 
       用redis管理kafka offset;写入es后进行update offset;
问题一 :       这样做是否会出现重复处理数据?
问题二 :       如果会出现重复处理 那么该如何避免? 
问题三:        如果不能避免 想知道自己构建id 会造成indexing速率下降很多吗?
 
        
已邀请:

Dapor

赞同来自:

请各位大佬赐教

rochy - rochy_he@jointsky

赞同来自:

正常情况下是不会出现数据重复的;你可以了解一下 kafka 正好一次(Exactly-once) 的机制;
从 Spark 写入 ES 可以使用 ES-Hadoop 的插件
如果想完全避免重复,可以指定 ID 插入;
指定 ID 并不会对插入速率造成多大影响(仅仅是很小的下降而已),请放心使用

要回复问题请先登录注册