使用 shuf 来打乱一个文件中的行或是选择文件中一个随机的行。

咨询下,有没有根据英文词根分词的分词器

Elasticsearch | 作者 dongxiao | 发布于2019年12月18日 | 阅读数:2039

请问一下,如果我需要对英文词根进行分词,有没有类似的分词器,比如telephone,我能根据词根分词成 tele 和 phone这样的,我们目前在做搜索,希望用户输入的能尽量匹配,所以希望有类似的分词器,可以将内容分词成更多的模式
已邀请:

locatelli

赞同来自: dongxiao

可能有两个思路,一个是用stemmer分词器,但不知道是不是满足你的需要。
 
另外一个是用decompounder分词器 (https://www.elastic.co/guide/e ... .html)。本身英语里面是不太有复合词的,比如telephone实际上被考虑为一个词而不是tele和phone合成起来。所以decompounder分词器原来是为德语、芬兰语之类的语言准备的。如果你可以自己准备英文字典,那么应该也可以用
匿名用户

匿名用户

赞同来自: dongxiao

如果是固定需求可以换个思路,
比如telephone
 
你就想拆分成tele和phone,而不是 tel 和ephone,那完全可以增加一个字段去处理,相关的过滤器,分析器都有。
 
或者就用楼上的方法。但是楼上的方法,能百分百实现也行、
 
Snowball Token Filter
Stemmer Token Filter
Stemmer Override Token Filter
 
 

要回复问题请先登录注册