比如用户录入的文本A(一大堆中文),es里面有很多文本(假设50万条记录)
最终想要相似度95%以上的所有文本记录,这个在es里面怎么实现?
关于文本的计算方式,采用词频余弦向量计算方式即可。[参考链接](cnblogs.com/liangjf/p/8283519.html)
最终想要相似度95%以上的所有文本记录,这个在es里面怎么实现?
关于文本的计算方式,采用词频余弦向量计算方式即可。[参考链接](cnblogs.com/liangjf/p/8283519.html)
2 个回复
God_lockin
赞同来自:
God_lockin
赞同来自:
1. 可以考虑直接standard按单子分词,配合similarity设置成ifidf
2. 召回的时候按不同相似比例的文档计算大致对应的ES打分
3. 后续使用的时候用用户输入文本做query从es里做召回,计算它的最高得分
这样能否满足你的需求?