不为失败找理由,要为成功找方法。

关于IK分词器,“男生”为什么不能分出“男”

自然语言处理 | 作者 zplzpl | 发布于2016年11月14日 | 阅读数:4954

因为表达男性的性别称呼有很多叫法,比如“男士”,“男人”,“男同胞”等。
 
男字应该作为一个单字词。
 
我使用IK_MAX_WORD,不知道为什么不能得到“男”的分词结果。
已邀请:

strglee

赞同来自:

虽然ik_max_word将文本做最细粒度的拆分,但也只能根据你的字典文件里面的信息进行分词。你的字典文件里面应该没有“男”这个单字词,所以得不到”男“的分词结果。(至于那些没有添加到字典文件里,但是也能得到的”单字词“的类型是CN_CHAR,可以理解为单个字符;如果你自己设置了单字词,那么它的类型就是CN_WORD)
在字典里面加上”男“就行了。

要回复问题请先登录注册