提问:布和纸怕什么?

求助个query理解问题

自然语言处理 | 作者 w455091555 | 发布于2021年12月23日 | 阅读数:1910

看网上的资料,在query理解部分一开始一般是预处理、分词、改写、词权重、实体识别、意图识别,等等,想问的问题是如果第二步的分词效果太差了会不会导致后续的改写、词权重、实体识别这些步骤完全无法进行,比如把词切成一个个单字,那后续步骤该怎么处理呢
 
已邀请:

Morry

赞同来自: w455091555

分词是永远不可能100%正确的,针对不正确的分词,有几种思路去优化
1、动作大一点的方案,基于N-gram、字、句的维度去做改写,参考一些seq2seq的算法
2、动作小一点的方案,搜索做多轮召回,设置两种(甚至多种)不同的分词词典、分词器,同时去做搜索召回,得到两个文档集,根据文档的数量和质量做个简单评估,取更好的那一种

w455091555 - 关心开源技术的初学者

赞同来自:

或者有非常了解query理解部分的 我可以付费咨询 谢谢

laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net

赞同来自:

关于预处理建议您查看:https://blog.csdn.net/laoyang3 ... 76355
 
关于自定义分词:https://blog.csdn.net/laoyang3 ... 30627
 
看完基础就会7788,然后再交流。

要回复问题请先登录注册