Elasticsearch:如何部署 NLP:文本嵌入和向量搜索
liuxg 发表了文章 • 0 个评论 • 2061 次浏览 • 2022-05-24 10:16
矢量相似性搜索(vector similarity search),或者通常称为语义搜索,超越了传统的基于关键字的搜索,允许用户找到可能没有任何共同关键字的语义相似的文档,从而提供更广泛的结果。向量相似性搜索对密集向量进行操作,并使用 k-最近邻(k-nearest neighbour)搜索来查找相似向量。为此,首先需要使用文本嵌入模型将文本形式的内容转换为其数字向量表示。
我们将使用来自 MS MARCO Passage Ranking Task 的公共数据集进行演示。它由来自 Microsoft Bing 搜索引擎的真实问题和人工生成的答案组成。该数据集是测试向量相似性搜索的完美资源,首先,因为问答是向量搜索最常见的用例之一,其次,MS MARCO 排行榜中的顶级论文以某种形式使用了向量搜索。
在我们的示例中,我们将使用此数据集的样本,使用模型生成文本嵌入,然后对其运行向量搜索。我们还希望对向量搜索产生的结果的质量进行快速验证。在今天的展示中,我将使用 Elastic Stack 8.2 来进行展示。
https://elasticstack.blog.csdn ... 20166
有什么 elasticsearch 轻便的压测方案?
liaosy 回复了问题 • 2 人关注 • 1 个回复 • 1299 次浏览 • 2022-05-23 09:52
如何深入理解ES的分片租约
Charele 回复了问题 • 2 人关注 • 9 个回复 • 1489 次浏览 • 2022-06-02 04:10
设置Watcher,判断两个独立的消息没有同时出现
Jasonspeaking 回复了问题 • 3 人关注 • 3 个回复 • 1107 次浏览 • 2022-05-24 06:05
关于es内存使用的的一些疑问
liujiacheng 回复了问题 • 2 人关注 • 1 个回复 • 1289 次浏览 • 2022-05-21 12:29
关于集合类型多选的问题
duanxiaobiao 回复了问题 • 3 人关注 • 1 个回复 • 1644 次浏览 • 2022-05-18 20:31
多层nested的多条件查询
duanxiaobiao 回复了问题 • 2 人关注 • 1 个回复 • 1768 次浏览 • 2022-05-17 23:19
es 大批量别名引起的性能问题
God_lockin 回复了问题 • 3 人关注 • 2 个回复 • 1923 次浏览 • 2022-05-18 09:34