是时候用 ES 拯救发际线啦

在 Elasticsearch 中使用语言识别进行多语言搜索

Elasticsearch | 作者 liuxg | 发布于2020年07月30日 | 阅读数:159

在当今高度互连的世界中,我们发现文档和其他信息源以多种语言提供。这给许多搜索应用程序带来了问题。我们需要尽可能地了解这些文档的语言,以便我们对其进行适当的分析并提供最佳的搜索体验。输入语言标识。

语言识别用于改善这些多语言语料库的整体搜索相关性。给定一组文档,我们尚不知道它们包含的语言,因此我们想有效地对其进行搜索。这些文档可以包含一种或多种语言。前者在计算机科学等领域很普遍,英语是交流的主要语言,而后者在生物学和医学文本中很常见,拉丁语经常与英语穿插。

通过应用特定于语言的分析,我们可以通过确保适当地理解,索引和搜索文档术语来提高相关性(精确度和查全率)。通过在 Elasticsearch 中使用一套特定于语言的分析器(内置的和通过其他插件),我们可以提供改进 token 分词,token 过滤和术语过滤:

停止单词和同义词列表
词形规范化:词干和词形化
分解(例如德文,荷兰文,韩文)

详细阅读,请参阅 https://elasticstack.blog.csdn ... 63123
已邀请:

要回复问题请先登录注册