三人行必有我师

Sparksql来执行es的聚合操作,是否会比es内部直接聚合操作效率高

Elasticsearch | 作者 jianjianhe | 发布于2018年01月17日 | 阅读数:3202

因为现在的业务场景直接在es内部做类似的聚合操作查询,查询性能较慢,2亿数据,大概耗时20~30s,我想请教下,如果我将这个聚合操作放到sparksql来做,不知道是否会比直接在es内部执行效率高?有没有哪位大神测试过?
目的是:提高es的聚合操作查询性能
已邀请:

jianjianhe

赞同来自:

后来经考察大致得出两个结论:
1.如果是实时高,且查询不涉及大量的计算则直接通过es api效率高;
2.如果数据量过大并涉及计算方面的,实时性较低的场景,走sparksql效率高,因为数据过大直接通过es计算聚合,直接导致es拒绝甚至崩溃;

zjthree - 90后IT男

赞同来自:

 最后你怎么处理的?

xiao_ma

赞同来自:

Sparksql来执行es的聚合操作什么意思?具体是数据存储在ES中,通过ES-Spark 来让saprk读到数据吗

要回复问题请先登录注册