ELK,萌萌哒

自定义词库必须依赖ik分词器吗?我现在只想增加一些化学词

Elasticsearch | 作者 ydzll | 发布于2019年10月21日 | 阅读数:544

如题,我的数据大部分为英文数据,用的标准分词器,但是部分化学名词分词不准确,所以想自定义词库维护这些词,搜了一下全是基于ik的,除了ik,没有别的办法吗?ES官方文档中有关于自定义词库这方面的内容吗?
已邀请:

laoyang360 - Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net

赞同来自:

ik是针对中文的,英文的考虑:默认standard或者english分词器

中文分词有很多:ik ansj hanlp 结巴 清华 斯坦福 都有开源分词器
华为还有自己的闭源分词器

为什么中文还特别需要分词器,因为中文不同于英文空格断句,举例:叔叔亲了我妈妈也亲了我,就有两重含义,第一:叔叔亲了我,妈妈也亲了我。第二:叔叔亲了我妈妈,也亲了我。

要回复问题请先登录注册