你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
输入关键字进行搜索
搜索:
发现
分享
文章
活动
登录
不为失败找理由,要为成功找方法。
关于IK分词器,“男生”为什么不能分出“男”
自然语言处理
| 作者
zplzpl
| 发布于2016年11月14日 | 阅读数:
4954
分享到:
QQ空间
新浪微博
微信
QQ好友
印象笔记
有道云笔记
因为表达男性的性别称呼有很多叫法,比如“男士”,“男人”,“男同胞”等。
男字应该作为一个单字词。
我使用IK_MAX_WORD,不知道为什么不能得到“男”的分词结果。
没有找到相关结果
已邀请:
与内容相关的链接
提交
1 个回复
strglee
赞同来自:
虽然ik_max_word将文本做最细粒度的拆分,但也只能根据你的字典文件里面的信息进行分词。你的字典文件里面应该没有“男”这个单字词,所以得不到”男“的分词结果。(至于那些没有添加到字典文件里,但是也能得到的”单字词“的类型是CN_CHAR,可以理解为单个字符;如果你自己设置了单字词,那么它的类型就是CN_WORD)
在字典里面加上”男“就行了。
要回复问题请先
登录
或
注册
发起人
zplzpl
活动推荐
Jun
17
搜索客 Meetup 讲师招募(长期有效)
线上
·
6-17 周一
·
进行中
Nov
30
【活动报名】ClickHouse Beijing User Group 第2届 Meetup
北京
·
11-30 周六
·
报名中
相关问题
除了设置mapping为not analyzied,还有其他方法让一个string字段不分词吗?
Elasticsearch查询时指定分词器
ik分词情况下“中国人民银行”为例,无法命中结果?
添加了ik自定义分词,之前入库的数据不能搜索出来,这个有什么好的解决方法?
Elasticsearch 分词搜索 - 精确查找
ES配置IK分词器失败
Elasticsearch中文分词器问题
IK分词器对数字是不是不分词?
ES使用IK分词器
"cluster.routing.allocation.disk.watermark.low"参数为什么不能禁止向节点分片分片?
ik 分词 远程扩展字典能配制调用频率吗
问题状态
最新活动:
2016-11-14 18:58
浏览:
4954
关注:
2
人
1 个回复
strglee
赞同来自:
在字典里面加上”男“就行了。