在 Elasticsearch 中使用语言识别进行多语言搜索

Elasticsearch | 作者 liuxg | 发布于2020年07月30日 | 阅读数：2768

在当今高度互连的世界中，我们发现文档和其他信息源以多种语言提供。这给许多搜索应用程序带来了问题。我们需要尽可能地了解这些文档的语言，以便我们对其进行适当的分析并提供最佳的搜索体验。输入语言标识。

语言识别用于改善这些多语言语料库的整体搜索相关性。给定一组文档，我们尚不知道它们包含的语言，因此我们想有效地对其进行搜索。这些文档可以包含一种或多种语言。前者在计算机科学等领域很普遍，英语是交流的主要语言，而后者在生物学和医学文本中很常见，拉丁语经常与英语穿插。

通过应用特定于语言的分析，我们可以通过确保适当地理解，索引和搜索文档术语来提高相关性（精确度和查全率）。通过在 Elasticsearch 中使用一套特定于语言的分析器（内置的和通过其他插件），我们可以提供改进 token 分词，token 过滤和术语过滤：

停止单词和同义词列表
词形规范化：词干和词形化
分解（例如德文，荷兰文，韩文）

详细阅读，请参阅 https://elasticstack.blog.csdn ... 63123

0 个回复

要回复问题请先登录或注册

在 Elasticsearch 中使用语言识别进行多语言搜索

0 个回复

发起人

活动推荐

相关问题

问题状态

在 Elasticsearch 中使用语言识别进行多语言搜索

与内容相关的链接

0 个回复

发起人

活动推荐

相关问题

问题状态