搜索客，搜索人自己的社区

社区日报第690期 (2019-08-04)

社区日报 • 至尊宝发表了文章 • 0 个评论 • 1002 次浏览 • 2019-08-04 10:19 • 来自相关话题

elasticsearch配置文件里两项解释

贡献

Elasticsearch • God_lockin 回复了问题 • 4 人关注 • 2 个回复 • 10214 次浏览 • 2019-08-03 22:32 • 来自相关话题

社区日报第689期 (2019-08-03）

社区日报 • bsll 发表了文章 • 0 个评论 • 1105 次浏览 • 2019-08-03 18:51 • 来自相关话题

elasticsearch同时对多个字段聚合（两个字段值类型一致）

贡献

Elasticsearch • God_lockin 回复了问题 • 3 人关注 • 1 个回复 • 3753 次浏览 • 2019-08-03 18:20 • 来自相关话题

logstash filter 字段是否存在

Logstash • kindy 回复了问题 • 1 人关注 • 1 个回复 • 1619 次浏览 • 2019-08-03 17:15 • 来自相关话题

x-pack能配置只看到某些dashboard吗？

Kibana • uuuu 回复了问题 • 1 人关注 • 1 个回复 • 1517 次浏览 • 2019-08-03 10:59 • 来自相关话题

社区日报第688期 (2019-08-02)

社区日报 • laoyang360 发表了文章 • 0 个评论 • 1210 次浏览 • 2019-08-02 22:28 • 来自相关话题

elasticsearch是否能进行众数聚合

贡献

Elasticsearch • fantuan 回复了问题 • 3 人关注 • 2 个回复 • 1588 次浏览 • 2019-08-02 16:46 • 来自相关话题

用date_histogram为什么key_as_string是这样的

贡献

Elasticsearch • stephen_qu 回复了问题 • 6 人关注 • 5 个回复 • 3240 次浏览 • 2019-08-02 16:13 • 来自相关话题

filebeat mysql module解析Mysql slow不匹配，请问数据库那边要怎么设置？

Beats • Goun 发起了问题 • 1 人关注 • 0 个回复 • 2177 次浏览 • 2019-08-02 11:08 • 来自相关话题

es path.data配置多个路径，存储的机制是什么，版本是2.4

Elasticsearch • lvwendong 发起了问题 • 1 人关注 • 0 个回复 • 1420 次浏览 • 2019-08-02 09:03 • 来自相关话题

如何手动触发translog的comit操作？

贡献

Elasticsearch • zqc0512 回复了问题 • 3 人关注 • 1 个回复 • 1723 次浏览 • 2019-08-02 08:53 • 来自相关话题

快照一直在IN_PROGRESS状态且无法删除

Elasticsearch • wangxinrong 发起了问题 • 1 人关注 • 0 个回复 • 2518 次浏览 • 2019-08-01 20:22 • 来自相关话题

记一次“访问量超过1000的人数”统计，计算聚合桶的个数

Elasticsearch • ziyou 发表了文章 • 2 个评论 • 7701 次浏览 • 2019-08-01 18:45 • 来自相关话题

前言

众所周知，在ES中有各种聚合方法能够是数据分析简单、高效。但是在繁杂的聚合方法中找到满足我们需求的那个，需要我们自己去实践。下面我就说明一下“访问量超过1000的人数”统计案例的实现。

需求

ES在使用过程中，我们公司有一个需求，就是需要统计活跃用户数，我们定义活跃用户数为：今日访问量超过1000的用户，所以我们统计活跃用户数的时候需要统计“访问量超过1000的人数”。

之前的做法

第一版统计活跃用户数的方法由于对复杂的聚合统计不熟悉的原因，就把统计分为了两步。
第一步：在ES中使用字段聚合每个用户的访问数量，数量大于1000；

查询语句

json { "aggs": { "user": { "terms": { "field": "userId.keyword", "size": 10000, "order": { "_count": "desc" }, "min_doc_count": "1000" } } }, "size": 0, "query": { "bool": { "must": [ { "range": { "startTime": { "gte": "now-4h", "lte": "now", "format": "epoch_millis" } } } ] } } } 

查询结果

json { "took" : 203, "timed_out" : false, "_shards" : { "total" : 1565, "successful" : 1565, "skipped" : 1520, "failed" : 0 }, "hits" : { "total" : 67470, "max_score" : 0.0, "hits" : [ ] }, "aggregations" : { "user" : { "doc_count_error_upper_bound" : 0, "sum_other_doc_count" : 0, "buckets" : [ { "key" : "admin", "doc_count" : 46998 }, { "key" : "nameless", "doc_count" : 8416 }, { "key" : "li", "doc_count" : 2486 }, { "key" : "liu", "doc_count" : 2183 }, { "key" : "111111", "doc_count" : 1281 } ] } } } 
第二步：从ES中获取第一步的统计结果，然后统计用户桶的个数，达到统计出个数的效果。

改进后的做法

改进后就是直接使用ES的查询，使用了sum_bucket聚合，是计算每个用户的用户ID独立数，也就是每个用户的用户ID独立数都是1，然后用桶聚合求和，得到所有的人数。
参考链接：[sum bucket聚合](<a href="https://www.elastic.co/guide/en/elasticsearch/reference/6.8/search-aggregations-pipeline-sum-bucket-aggregation.html</a&gt" rel="nofollow" target="_blank">https://www.elastic.co/guide/e ... %26gt;)

查询语句

json { "aggs": { "usercount": { "sum_bucket": { "buckets_path": "usercount-bucket>usercount-metric" } }, "usercount-bucket": { "terms": { "field": "userId.keyword", "size": 10, "order": { "_key": "desc" }, "min_doc_count": "1000" }, "aggs": { "usercount-metric": { "cardinality": { "field": "userId.keyword" } } } } }, "size": 0, "query": { "bool": { "must": [ { "range": { "x_st": { "gte": "now-4h", "lte": "now", "format": "epoch_millis" } } } ] } } }

查询结果

json { "took" : 106, "timed_out" : false, "_shards" : { "total" : 1565, "successful" : 1565, "skipped" : 1520, "failed" : 0 }, "hits" : { "total" : 63956, "max_score" : 0.0, "hits" : [ ] }, "aggregations" : { "usercount-bucket" : { "doc_count_error_upper_bound" : 0, "sum_other_doc_count" : 0, "buckets" : [ { "key" : "nameless", "doc_count" : 8278, "usercount-metric" : { "value" : 1 } }, { "key" : "liu", "doc_count" : 2142, "usercount-metric" : { "value" : 1 } }, { "key" : "li", "doc_count" : 1928, "usercount-metric" : { "value" : 1 } }, { "key" : "admin", "doc_count" : 44395, "usercount-metric" : { "value" : 1 } }, { "key" : "111111", "doc_count" : 1281, "usercount-metric" : { "value" : 1 } } ] }, "usercount" : { "value" : 5.0 } } }

如果目前索引已存在，如何增加分片数量？

贡献

Elasticsearch • Joshua 回复了问题 • 7 人关注 • 4 个回复 • 15092 次浏览 • 2019-08-01 16:34 • 来自相关话题

通知设置新通知

发现

社区日报第690期 (2019-08-04)

elasticsearch配置文件里两项解释

社区日报第689期 (2019-08-03）

elasticsearch同时对多个字段聚合（两个字段值类型一致）

logstash filter 字段是否存在

x-pack能配置只看到某些dashboard吗？

社区日报第688期 (2019-08-02)

elasticsearch是否能进行众数聚合

用date_histogram为什么key_as_string是这样的

filebeat mysql module解析Mysql slow不匹配，请问数据库那边要怎么设置？

es path.data配置多个路径，存储的机制是什么，版本是2.4

如何手动触发translog的comit操作？

快照一直在IN_PROGRESS状态且无法删除

记一次“访问量超过1000的人数”统计，计算聚合桶的个数

前言

需求

之前的做法

查询语句

查询结果

改进后的做法

查询语句

查询结果

如果目前索引已存在，如何增加分片数量？

热门话题

通知设置 新通知

发现

前言

需求

之前的做法

查询语句

查询结果

改进后的做法

查询语句

查询结果

热门话题

通知设置新通知