我有点怀疑你在刷屏

spark使用别名读取ES中多个索引时,数据会重复取多次

Elasticsearch | 作者 abird | 发布于2017年05月04日 | 阅读数:4218

ES中有很多索引,通过别名实现联合查询。
在spark-sql读取ES时,source直接使用索引名读取正常。
但是使用别名时(别名关联了多个索引),数据会被重复读取很多份。暂时没发现重复数量和索引数据数量之间存在关系。
已邀请:

abird - 保密

赞同来自:

数据重复效果如下:
|          IR_CONTENT|              IR_SID|         IR_URLTIME|         IR_URLTITLE|
+--------------------+--------------------+-------------------+--------------------+
| 中新社北京4月11日电 中国保...|96370193011498964...|2017-04-11 23:34:00|中国保监会副主席:行业面临复杂风险...|
| 中新社北京4月11日电 中国保...|96370193011498964...|2017-04-11 23:34:00|中国保监会副主席:行业面临复杂风险...|
| 微博上关于手写电影票的爆料层出...|44094547489868727...|2017-03-24 00:00:00|   偷瞒票房伤害了谁? 业内人呼...|
| 11日,朝鲜在平壤万寿台议事堂...|90574515974352655...|2017-04-11 23:58:00|朝鲜召开第13届最高人民会议第五次...|
| 中新社北京4月11日电 中国保...|96370193011498964...|2017-04-11 23:34:00|中国保监会副主席:行业面临复杂风险...|
| 中新社北京4月11日电 中国保...|96370193011498964...|2017-04-11 23:34:00|中国保监会副主席:行业面临复杂风险...|

medcl - 今晚打老虎。

赞同来自:

你用的什么版本啊,
这个是一个之前好像有的问题,看看是不是同一个:https://github.com/elastic/ela ... s/363
 

要回复问题请先登录注册