复杂聚合后计算Others的方法

Elasticsearch | 作者 Tsukiand | 发布于2021年05月25日 | 阅读数：3100

目前遇到一个问题，现在有下面的聚合计算。目的是计算sdkVer的版本分布，然后对device进行唯一值聚合，这样就能得到sdkVer的分布情况（前五名，基于唯一的device来计算的），我们希望只看前5名sdkVer的分布情况，这样的计算是能满足需求的，但是我们还需要看到前五名之外的sdkVer的占据的比例，也就是1 2 3 4 5 Others这六个部分，目前我能想到就是两次聚合，第一次算出前五名的值，第二次排出这前五名的值做聚合来计算。

{

  "size": 0,

  "query": {

    "bool": {

      "filter": [

        {

          "range": {

            "meetingtime": {

              "from": 1619798400,

              "to": 1621439999,

              "include_lower": true,

              "include_upper": true,

              "time_zone": "UTC",

              "format": "epoch_second",

              "boost": 1.0

            }

          }

        },

        {

          "term": {

            "type": {

              "value": "test",

              "boost": 1.0

            }

          }

        }

      ],

      "adjust_pure_negative": true,

      "boost": 1.0

    }

  },

  "aggregations": {

    "sdkVer": {

      "terms": {

        "field": "sdkVer",

        "size": 5,

        "min_doc_count": 1,

        "shard_min_doc_count": 0,

        "show_term_doc_count_error": false,

        "order": [

          {

            "device": "desc"

          },

          {

            "_key": "asc"

          }

        ]

      },

      "aggregations": {

        "device": {

          "cardinality": {

            "field": "device"

          }

        }

      }

    }

  }

}

不知道是否有方法能一次返回我需要的结果，希望各位给点建议。谢谢

2 个回复

thewind

赞同来自: w_b 、Tsukiand

因为 `bucket_script`只能应用于桶聚合的里面，如果可以根据某个特殊字段，只产生一个桶，可以直接使用 `bucket_script`计算出百分比

GET yztest/_search

{

  "size": 0,

  "aggs": {

    "a0": {

      "terms": {

        "field": "f1.keyword"

      },

      "aggs": {

        "a1": {

          "terms": {

            "field": "sdkVer.keyword",

            "size": 5

          },

          "aggs": {

            "a12": {

              "cardinality": {

                "field": "device.keyword"

              }

            }

          }

        },

        "a2": {

          "sum_bucket": {

            "buckets_path": "a1._count" // top5_docs

          }

        },

        "a3": {

          "value_count": {

            "field": "_id" // total_docs

          }

        },

        "a4": {

          "bucket_script": {

            "buckets_path": {

              "v1": "a2",

              "v2": "a3"

            },

            "script": "(params.v2 - params.v1) / params.v2 * 100" // other_percent

          }

        }

      }

    }

  }

}

{

  "took" : 2,

  "timed_out" : false,

  "_shards" : {

    "total" : 1,

    "successful" : 1,

    "skipped" : 0,

    "failed" : 0

  },

  "hits" : {

    "total" : {

      "value" : 9,

      "relation" : "eq"

    },

    "max_score" : null,

    "hits" : [ ]

  },

  "aggregations" : {

    "a0" : {

      "doc_count_error_upper_bound" : 0,

      "sum_other_doc_count" : 0,

      "buckets" : [

        {

          "key" : "1",

          "doc_count" : 9,

          "a1" : {

            "doc_count_error_upper_bound" : 0,

            "sum_other_doc_count" : 2,

            "buckets" : [

              {

                "key" : "v1.0.0",

                "doc_count" : 3,

                "a12" : {

                  "value" : 3

                }

              },

              {

                "key" : "v2.0.0",

                "doc_count" : 1,

                "a12" : {

                  "value" : 1

                }

              },

              {

                "key" : "v3.0.0",

                "doc_count" : 1,

                "a12" : {

                  "value" : 1

                }

              },

              {

                "key" : "v4.0.0",

                "doc_count" : 1,

                "a12" : {

                  "value" : 1

                }

              },

              {

                "key" : "v5.0.0",

                "doc_count" : 1,

                "a12" : {

                  "value" : 1

                }

              }

            ]

          },

          "a3" : {

            "value" : 9

          },

          "a2" : {

            "value" : 7.0

          },

          "a4" : {

            "value" : 22.22222222222222

          }

        }

      ]

    }

  }

}

thewind

可以使用管道聚合，求出前 5的 sdkVer 的文档数量(top5_docs)，然后根据

other_percent = (total_docs - top5_docs ) / total_docs * 100

GET test/_search?track_total_hits=true

{

  "size": 0,

  "aggs": {

    "a1": {

      "terms": {

        "field": "sdkVer.keyword",

        "size": 5

      },

      "aggs": {

        "a12": {

          "cardinality": {

            "field": "device.keyword"

          }

        }

      }

    },

    "a2": {

      "sum_bucket": {

        "buckets_path": "a1._count" //管道聚合

      }

    }

  }

}

{

  "took" : 0,

  "timed_out" : false,

  "_shards" : {

    "total" : 1,

    "successful" : 1,

    "skipped" : 0,

    "failed" : 0

  },

  "hits" : {

    "total" : {

      "value" : 9, // total_docs

      "relation" : "eq"

    },

    "max_score" : null,

    "hits" : [ ]

  },

  "aggregations" : {

    "a1" : {

      "doc_count_error_upper_bound" : 0,

      "sum_other_doc_count" : 2,

      "buckets" : [

        {

          "key" : "v1.0.0",

          "doc_count" : 3,

          "a12" : {

            "value" : 3

          }

        },

        {

          "key" : "v2.0.0",

          "doc_count" : 1,

          "a12" : {

            "value" : 1

          }

        },

        {

          "key" : "v3.0.0",

          "doc_count" : 1,

          "a12" : {

            "value" : 1

          }

        },

        {

          "key" : "v4.0.0",

          "doc_count" : 1,

          "a12" : {

            "value" : 1

          }

        },

        {

          "key" : "v5.0.0",

          "doc_count" : 1,

          "a12" : {

            "value" : 1

          }

        }

      ]

    },

    "a2" : {

      "value" : 7.0 // top5_docs

    }

  }

}

要回复问题请先登录或注册

复杂聚合后计算Others的方法

2 个回复

发起人

活动推荐

相关问题

问题状态

复杂聚合后计算Others的方法

与内容相关的链接

2 个回复

发起人

活动推荐

相关问题

问题状态