使用elasticsearch对其他数据源进行索引时,如何选用分词器?

Elasticsearch | 作者 ggchangan | 发布于2015年12月11日 | 阅读数:3080

其他数据源包括关系数据库mysql,sqlserver等;非关系数据库redis等;文档、网页、视频等;关系数据库中的每条记录映射成es中的一个文档,这样因为数据源的多样性,无法确定文档的语言。
当前使用的解决方案是:使用标准的分词器,不考虑数据来源的语言。这样的一个问题就是中文被分成单个字,没有词的概念。不知这样做怎么样?有没有更好的解决方案?
已邀请:

medcl - 今晚打老虎。

赞同来自:

不同的数据源字段是不是一样呢?建议使用type或者index分开,根据不同的数据源的不同字段分别设置mapping

phantom - you know, for search

赞同来自:

只有在数据源头加以标识,然后针对进行不同映射配置,基本和楼上说的思路一样

要回复问题请先登录注册