你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

SparkStreaming 写 ES可能遇到的问题

Elasticsearch | 作者 Dapor | 发布于2018年12月05日 | 阅读数：5663

模式： Kafka 0.9 => SparkStreaming 2.1 => ES 6.4

用redis管理kafka offset；写入es后进行update offset；
问题一：这样做是否会出现重复处理数据？
问题二：如果会出现重复处理那么该如何避免？
问题三：如果不能避免想知道自己构建id 会造成indexing速率下降很多吗？

2 个回复

Dapor

请各位大佬赐教

rochy - rochy_he

正常情况下是不会出现数据重复的；你可以了解一下 kafka 正好一次(Exactly-once) 的机制；
从 Spark 写入 ES 可以使用 ES-Hadoop 的插件
如果想完全避免重复，可以指定 ID 插入；
指定 ID 并不会对插入速率造成多大影响（仅仅是很小的下降而已），请放心使用

要回复问题请先登录或注册

SparkStreaming 写 ES可能遇到的问题

2 个回复

发起人

活动推荐

相关问题

问题状态

SparkStreaming 写 ES可能遇到的问题

与内容相关的链接

2 个回复

发起人

活动推荐

相关问题

问题状态