橡皮、老虎皮、狮子皮哪一个最不好?

请问下能否统计许多篇文章里面的高频词汇,短语

Elasticsearch | 作者 hsd249022043 | 发布于2019年07月29日 | 阅读数:2446

想统计文章里面的高频词汇,短语
已邀请:

hsd249022043

赞同来自:

如题,试过了在text里面加了fielddata,可以统计词频,但是统计不了短语

hsd249022043

赞同来自:

也试过在字段上设置Shingle Token Filter,但是这样生成的短语没有语义,请问有什么好的方法吗,目前只用分析英文文章,不用中文分词

God_lockin

赞同来自:

首先你要先能把文章里面的内容正确分词才行
然后用terms聚合就可以统计高频词
而且通过exclude参数还能去掉部分不合理/不想要的分词结果
{
"aggs": {
"some_aggs_name": {
"terms": {
"field": "content",
"size": 100,
"order": {
"_count": "desc"
}
}
}
},
"size": 0,
"query":{
"match_all":{}
}
}

要回复问题请先登录注册