简繁体转换插件更新:elasticsearch-analysis-stconvert 升级支持2.0

版本1.5.0 支持es2.0.0
 
项目地址:https://github.com/medcl/elast ... nvert 
 
mvn 编译打包,拷贝release下面的zip并解压到你的es plugins目录即可,需要重启es

这个插件帮你处理简繁体,简繁体全部统一成简体或繁体,不管输入的简体还是繁体,都能得到搜索结果
 
比如:
不过输入的是『北京国际电视台』的还是『北京國際電視臺』都能命中。
 
详细配置和使用请参照上面的地址。
 

2 个评论

新增stconvert的charfilter,在中文分词之前先使用本charfilter,避免分词的问题

➜ ~ curl -XGET http://localhost:9200/index/_analyze\?text\=%e5%8c%97%e4%ba%ac%e5%9b%bd%e9%99%85%e7%94%b5%e8%a7%86%e5%8f%b0%2c%e5%8c%97%e4%ba%ac%e5%9c%8b%e9%9a%9b%e9%9b%bb%e8%a6%96%e8%87%ba\&tokenizer\=keyword\&char_filters\=tsconvert
{"tokens":[{"token":"北京国际电视台","start_offset":0,"end_offset":7,"type":"word","position":0},{"token":"北京国际电视台","start_offset":8,"end_offset":15,"type":"word","position":1}]}%

➜ ~ curl -XGET http://localhost:9200/index/_analyze\?text\=%e5%8c%97%e4%ba%ac%e5%9b%bd%e9%99%85%e7%94%b5%e8%a7%86%e5%8f%b0%2c%e5%8c%97%e4%ba%ac%e5%9c%8b%e9%9a%9b%e9%9b%bb%e8%a6%96%e8%87%ba\&tokenizer\=keyword\&char_filters\=stconvert
{"tokens":[{"token":"北京國際電視檯","start_offset":0,"end_offset":7,"type":"word","position":0},{"token":"北京國際電視臺","start_offset":8,"end_offset":15,"type":"word","position":1}]}%
请问在 elasticsearch.yml,如何配置自定义stconvert分词?

要回复文章请先登录注册