用es做搜索引擎，大家是怎么处理热搜词的？

Elasticsearch | 作者 zttech | 发布于2016年01月19日 | 阅读数：25014

RT
我能想到的是将所有的搜索词放入一个文档中，然后基于termvectors取top(term_freq)作为结果。但ik分词似乎对termvectors不友好，统计不准确。
不知道大家是怎么处理的？

5 个回复

对日志进行统计，到最后还是具体到对字段的string进行词频统计，比如有下面5个文档，都是用户搜索的内容：

POST /index/fulltext/1

{"content":"中国人民"}

POST /index/fulltext/2

{"content":"中国 美国"}

POST /index/fulltext/3

{"content":"中国人民币"}

POST /index/fulltext/4

{"content":"美元币值 中国影响"}

POST /index/fulltext/5

{"content":"国家GDP"}

如果要统计热词的话，那么显然“中国”应该排在第一位，其次应该是“人民”，这样的情形怎么统计出来这些词频高的词呢？