简繁体转换插件更新：elasticsearch-analysis-stconvert 升级支持2.0

资讯动态 | 作者 medcl | 发布于2015年12月24日 | | 阅读数：13765

版本1.5.0 支持es2.0.0

项目地址：https://github.com/medcl/elast ... nvert

mvn 编译打包，拷贝release下面的zip并解压到你的es plugins目录即可，需要重启es

这个插件帮你处理简繁体，简繁体全部统一成简体或繁体，不管输入的简体还是繁体，都能得到搜索结果

比如：
不管输入的是『北京国际电视台』的还是『北京國際電視臺』都能命中。

详细配置和使用请参照上面的地址。

[尊重社区原创，转载请保留或注明出处]
本文地址：http://elasticsearch.cn/article/34

插件更新中文分词简繁体处理 st_convert

1

4 个评论

medcl

新增stconvert的charfilter，在中文分词之前先使用本charfilter，避免分词的问题

➜ ~ curl -XGET http://localhost:9200/index/_analyze\?text\=%e5%8c%97%e4%ba%ac%e5%9b%bd%e9%99%85%e7%94%b5%e8%a7%86%e5%8f%b0%2c%e5%8c%97%e4%ba%ac%e5%9c%8b%e9%9a%9b%e9%9b%bb%e8%a6%96%e8%87%ba\&tokenizer\=keyword\&char_filters\=tsconvert
{"tokens":[{"token":"北京国际电视台","start_offset":0,"end_offset":7,"type":"word","position":0},{"token":"北京国际电视台","start_offset":8,"end_offset":15,"type":"word","position":1}]}%

➜ ~ curl -XGET http://localhost:9200/index/_analyze\?text\=%e5%8c%97%e4%ba%ac%e5%9b%bd%e9%99%85%e7%94%b5%e8%a7%86%e5%8f%b0%2c%e5%8c%97%e4%ba%ac%e5%9c%8b%e9%9a%9b%e9%9b%bb%e8%a6%96%e8%87%ba\&tokenizer\=keyword\&char_filters\=stconvert
{"tokens":[{"token":"北京國際電視檯","start_offset":0,"end_offset":7,"type":"word","position":0},{"token":"北京國際電視臺","start_offset":8,"end_offset":15,"type":"word","position":1}]}%

zhangyu

请问在 elasticsearch.yml，如何配置自定义stconvert分词？

medcl 回复 zhangyu

新的配置都不在 Elasticsearch.yml 里面进行配置，通过 setting 接口来创建

zhangyu

1.8.0 elasticsearch-analysis-stconvert to ES 2.3.0 通过 setting 接口来创建
PUT /stconvert/
{
"index" : {
"analysis" : {
"analyzer" : {
"tsconvert" : {
"tokenizer" : "tsconvert"
}
},
"tokenizer" : {
"tsconvert" : {
"type" : "stconvert",
"delimiter" : "#",
"keep_both" : false,
"convert_type" : "t2s"
}
},
"char_filter" : {
"tsconvert" : {
"type" : "stconvert",
"delimiter" : "#",
"keep_both" : false,
"convert_type" : "t2s"
}
}
}
}
}

要回复文章请先登录或注册

简繁体转换插件更新：elasticsearch-analysis-stconvert 升级支持2.0

4 个评论

发起人

活动推荐