看,灰机...

文本相似度查询词频向量余弦计算方式,如何在es快速实现?

Elasticsearch | 作者 NingerJohn | 发布于2021年02月01日 | 阅读数:3206

比如用户录入的文本A(一大堆中文),es里面有很多文本(假设50万条记录)
最终想要相似度95%以上的所有文本记录,这个在es里面怎么实现?
关于文本的计算方式,采用词频余弦向量计算方式即可。[参考链接](cnblogs.com/liangjf/p/8283519.html)
已邀请:

God_lockin

赞同来自:

向量搜索里有余弦相似度计算度方法

God_lockin

赞同来自:

看起来是想做文本去重或者聚类?
1. 可以考虑直接standard按单子分词,配合similarity设置成ifidf
2. 召回的时候按不同相似比例的文档计算大致对应的ES打分
3. 后续使用的时候用用户输入文本做query从es里做召回,计算它的最高得分
 
这样能否满足你的需求?

要回复问题请先登录注册