居然是你

如果要索引的文本重复率很高有什么好的解决方案?

Elasticsearch | 作者 cht | 发布于2020年01月09日 | 阅读数:1530

使用es作为搜索引擎,存储的数据都是个人数据。但是个人数据之间的文档重复率可能很高(80%以上文件重复)。搜索只能搜用户自己的数据。类似于网盘这种场景。
每个人的数据都建索引 存储浪费。如果针对文档md5纬度做索引,对应用户有比较复杂。
 
这种有什么好的方案没有?
已邀请:

God_lockin

赞同来自:

这怎么看着像权限系统?比如做不同的字段给个人/group/department…
 
然后对不同的用户搜索的时候把他们自己的id(对应个人),groupId/deptId…拼在dsl里面,比如must/must_not之类的filter可以吗

要回复问题请先登录注册