Sparksql来执行es的聚合操作，是否会比es内部直接聚合操作效率高

Elasticsearch | 作者 jianjianhe | 发布于2018年01月17日 | 阅读数：4069

因为现在的业务场景直接在es内部做类似的聚合操作查询，查询性能较慢，2亿数据，大概耗时20~30s，我想请教下，如果我将这个聚合操作放到sparksql来做，不知道是否会比直接在es内部执行效率高？有没有哪位大神测试过？
目的是：提高es的聚合操作查询性能

3 个回复

后来经考察大致得出两个结论：
1.如果是实时高，且查询不涉及大量的计算则直接通过es api效率高；
2.如果数据量过大并涉及计算方面的，实时性较低的场景，走sparksql效率高，因为数据过大直接通过es计算聚合，直接导致es拒绝甚至崩溃；

zjthree - 90后IT男

最后你怎么处理的？

Sparksql来执行es的聚合操作什么意思？具体是数据存储在ES中，通过ES-Spark 来让saprk读到数据吗

要回复问题请先登录或注册