要不要再翻翻文档呢?

【搜索客社区日报】第1779期 (2024-02-20)

社区日报God_lockin 发表了文章 • 0 个评论 • 442 次浏览 • 3 天前 • 来自相关话题

1. 顶级复杂数据分析引擎 —— ES 用就完了(需要梯子)
https://medium.com/%40callmezy ... b36a0

2. OpenAI 的视频生成模型Sora的技术报告(需要梯子)
https://openai.com/research/vi ... ators

3. Nvidia 出品的个人Ai 聊天机器人(需要梯子)
https://www.nvidia.com/en-us/a ... e-ai/

编辑:斯蒂文
更多资讯:http://news.searchkit.cn

关于快照task状态问题

回复

Elasticsearchshangguancheng 发起了问题 • 1 人关注 • 0 个回复 • 1745 次浏览 • 2024-02-07 15:18 • 来自相关话题

用 Easysearch 帮助大型车企降本增效

Easysearchyangmf2040 发表了文章 • 0 个评论 • 2312 次浏览 • 2024-02-02 15:15 • 来自相关话题

最近某头部汽车集团需要针对当前 ES 集群进行优化,背景如下:
ES 用于支撑包括核心营销系统、管理支持系统、财务类、IT 基础设施类、研发、自动驾驶等多个重要应用,合计超 50 余套集群,累计数据超 1.5PB 。
本文针对其中一个 ES 集群进行分享,该集群原本使用的是 ES 7.3.2 免费版,数据已经 130TB 了,14 个节点。写入数据时经常掉节点,写入性能也不稳定,当天的数据写不完。迫切需要新的解决方案。
分析业务场景后总结需求要点:主要是写,很少查。审计需求,数据需要长期保存。
这个需求比较普遍,处理起来也很简单:

  • 使用 Easysearch 软件,只需少量节点存储近两天的数据。
  • 索引设置开启 ZSTD 压缩功能,节省磁盘空间。
  • 每天索引数据写完后,第二天执行快照备份存放到 S3 存储。
  • 备份成功后,删除索引释放磁盘空间。
  • 需要搜索数据时,直接从快照搜索。

    ![](https://www.infinilabs.com/img ... /0.png)
    将近期的数据,存放到本地磁盘,保障写入速度。写入完毕的索引,在执行快照备份后,可删除索引,释放本地磁盘空间。

    Easysearch 配置要点


    <br /> path.repo: ["/S3-path"]<br /> node.roles: ["data","search"]<br /> node.search.cache.size: 500mb<br />

  • path.repo : 指定 S3 存储路径,上传快照用。
  • node.roles : 只有 search 角色的节点,才能去搜索快照中的数据。
  • node.search.cache.size : 执行快照搜索时的,缓存大小。

    更多信息请参考[官方文档](https://www.infinilabs.com/doc ... pshot/)。

    旧数据迁移


    通过 Console 将原 ES 集群的数据,迁移到新 Easysearch 集群。迁移时,复制 mapping 和 setting,并在 setting 中添加如下设置。

    <br /> "codec": "ZSTD",<br /> "source_reuse": true,<br />

    ![](https://www.infinilabs.com/img ... /1.png)
    ![](https://www.infinilabs.com/img ... /2.png)
    原索引数据量大,可拆分成多个小任务。
    ![](https://www.infinilabs.com/img ... /3.png)
    迁移完,索引存储空间一般节省 50% 左右。
    原索引 279GB ,迁移完后 138GB。
    ![](https://www.infinilabs.com/img ... /4.png)

    搜索快照数据


    挂载快照后,搜索快照里的索引和搜索本地的索引,语法完全一样。
    ![](https://www.infinilabs.com/img ... /5.png)
    如何判断一个索引是在快照还是本地磁盘呢?可以查看索引设置里的 settings.index.store.type
    ![](https://www.infinilabs.com/img ... /6.png)
    如果是 remote_snapshot ,说明是快照中的数据。如果是空值,则是集群本地的数据。
    这次迁移,节省了 6 台主机资源。更重要的是,用上对象存储后,主机磁盘空间压力骤减。
    这次介绍就到这里了,有问题联系我。

    ![](https://www.infinilabs.com/img ... /7.jpg)


    关于 Easysearch


    ![Easysearch](https://infinilabs.com/img/blo ... er.png)

    INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

    官网文档:<https://infinilabs.com/docs/latest/easysearch>;

【搜索客社区日报】第1778期 (2024-01-23)

社区日报God_lockin 发表了文章 • 0 个评论 • 2259 次浏览 • 2024-02-02 15:14 • 来自相关话题


1. 一个新的代码生成模型的原理说明(需要梯子)
https://www.codium.ai/blog/alp ... ests/
(这个是水友的翻译版)https://baoyu.io/translations/ ... tests
2. 计算机科学相关的书单,全套免费电子书下载(需要梯子)
(根域名是全球最大的免费电子书分发网站,之前被FBI x了的z-library)
https://zh.singlelogin.re/booklist/165858/538e6d/计算机系列丛书.html
3. AI 领域关键词词典表(需要梯子)
https://a16z.com/ai-glossary/
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
 

【搜索客社区日报】第1785期 (2024-02-01)

社区日报Se7en 发表了文章 • 0 个评论 • 2286 次浏览 • 2024-02-01 13:36 • 来自相关话题

1.将文档级安全性(DLS)添加到内部知识搜索中
https://www.elastic.co/search- ... earch
2.使用 Python、Elasticsearch 和 Kibana 分析波士顿凯尔特人队
https://www.elastic.co/search- ... ibana
3.使用 Flink、Elasticsearch 和 Redpanda 构建闪电般的搜索索引(需要梯子)
https://redpanda-data.medium.c ... c5939
4.万字长文:AIGC技术与应用全解析
https://zhuanlan.zhihu.com/p/607822576

编辑:Se7en  
更多资讯:http://news.searchkit.cn

​搜索客社区日报 第1784期 (2024-01-31)

社区日报kin122 发表了文章 • 0 个评论 • 2424 次浏览 • 2024-01-31 10:38 • 来自相关话题

1.Elasticsearch:2023 年 Lucene 领域发生了什么?
https://blog.csdn.net/UbuntuTo ... 39714
2.Apache Lucene 9.9,有史以来最快的 Lucene 版本
https://elasticstack.blog.csdn ... 80899
3.Elastic Search 8.12:让 Lucene 更快,让开发人员更快
https://blog.csdn.net/UbuntuTo ... 42767
4.Elasticsearch:Simulate ingest API
https://blog.csdn.net/UbuntuTo ... 50006


编辑:kin122
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第1783期 (2024-01-30)

社区日报God_lockin 发表了文章 • 0 个评论 • 2577 次浏览 • 2024-01-30 13:31 • 来自相关话题

1. 一个自由职业的博主对ChatGPT的认识,挺有指导意义的
https://mp.weixin.qq.com/s/K3mjmkLye79Khem18QHORw

2. 哈佛CS的入门课程上线了(需要梯子)
https://cs50.harvard.edu/x/2024/

3. 贾扬清同款,ai 赋能的搜索引擎开源了
这个是后台模型服务
https://github.com/leptonai/leptonai
这个是前台的搜索引擎
https://github.com/leptonai/search_with_lepton

编辑:斯蒂文
更多资讯:http://news.searchkit.cn

【搜索客社区日报】 第1782期 (2024-01-29)

社区日报yuebancanghai 发表了文章 • 0 个评论 • 2992 次浏览 • 2024-01-29 09:13 • 来自相关话题

1. 百万并发场景中倒排索引与位图计算的实践
https://mp.weixin.qq.com/s/nmK1nptmV-pBiHlwV9Ynjg
2、结合AI大模型与向量检索的新一代云端检索分析引擎
https://blog.csdn.net/cloudbig ... 22650
3、腾讯万亿级 Elasticsearch 架构实践
https://blog.csdn.net/yangshan ... 09592

编辑:yuebancanghai
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第1781期 (2024-01-26)

社区日报laoyang360 发表了文章 • 0 个评论 • 3001 次浏览 • 2024-01-26 20:56 • 来自相关话题

1、ChatGPT 和 LLM 增强 OpenSearch/Elasticsearch 可用性
https://eliatra.com/blog/chatg ... lity/

2、Elasticsearch 命令行工具 – elasticsearch-croneval
https://toughcoding.net/elasti ... neval

3、将数据从 Snowflake 摄取到 Elasticsearch
https://www.elastic.co/search- ... earch

4、Elasticsearc 8.12 新特性:对大模型兼容更友好
https://www.elastic.co/cn/blog ... -12-0
 
编辑:铭毅天下
更多资讯:http://news.searchkit.cn
 

极限网关还有试用期么 现在启动10分钟后就会自动退出

Elasticsearchyangmf2040 回复了问题 • 3 人关注 • 2 个回复 • 3054 次浏览 • 2024-02-02 15:14 • 来自相关话题

multi_match+term的组合查询,能否提高term匹配的得分权重,让其排序在前面

Elasticsearchlaoyang360 回复了问题 • 3 人关注 • 2 个回复 • 3175 次浏览 • 2024-01-26 20:59 • 来自相关话题

【搜索客社区日报】第1780期 (2024-01-25)

社区日报Se7en 发表了文章 • 0 个评论 • 3161 次浏览 • 2024-01-25 13:28 • 来自相关话题

1.日均搜索 3 亿次,小红书如何打造年轻人首选的「搜索引擎」
https://mp.weixin.qq.com/s/yAhhRzYLcg-oGOSHILyfmw
2.Streamdal 使用智能 PII 规则增强 Logstash(需要梯子)
https://medium.com/streamdal/s ... 42017
3.为什么先进的 RAG 方法对于人工智能的未来至关重要?(需要梯子)
https://towardsdatascience.com ... 5a208

编辑:Se7en  
更多资讯:http://news.searchkit.cn

Easysearch:语义搜索、知识图和向量数据库概述

Easysearchliaosy 发表了文章 • 0 个评论 • 3305 次浏览 • 2024-01-24 20:56 • 来自相关话题


什么是语义搜索?


语义搜索是一种使用自然语言处理算法来理解单词和短语的含义和上下文以提供更准确的搜索结果的搜索技术。旨在更好地理解用户的意图和查询内容,而不仅仅是根据关键词匹配,还通过分析查询的语义和上下文来提供更准确和相关的搜索结果。

传统的关键词搜索主要依赖于对关键词的匹配,而忽略了查询的含义和语境。但语义搜索的优点在于它可以更好地满足用户的意图,尤其是对于复杂的查询和问题。它能够理解查询的上下文,处理模糊或不完整的查询,并提供更相关和有用的搜索结果。例如,当用户搜索"最近的餐厅"时,语义搜索可以根据用户的位置信息和上下文,提供附近的餐厅列表,而不仅仅是简单地匹配关键词"最近"和"餐厅"。

![](https://www.infinilabs.com/img ... p1.jpg)

语义搜索的历史


语义搜索的概念可以追溯到计算机科学的早期,在 20 世纪 50 年代和 1960 年代就有人尝试开发自然语言处理系统。然而,直到 20 世纪 90 年代和 2000 年代,语义搜索领域才取得了重大进展,这在一定程度上要归功于机器学习和人工智能的进步。

语义搜索最早的例子之一是 Douglas Lenat 在 1984 年创建的 Cyc 项目。该项目旨在建立一个全面的常识知识本体或知识库,可用于理解自然语言查询。虽然 Cyc 项目面临诸多挑战,最终没有实现其目标,但它为未来语义搜索的研究奠定了基础。

20 世纪 90 年代末,Ask Jeeves(现称为 Ask.com)等搜索引擎开始尝试自然语言查询和语义搜索技术。这些早期的努力受到当时技术的限制,但它们展示了更复杂的搜索算法的潜力。

2000 年代初 Web 本体语言 (OWL) 的发展提供了一种以机器可读格式表示知识和关系的标准化方法,使得开发语义搜索算法变得更加容易。2008 年被微软收购的 Powerset 和 2007 年推出的 Hakia 等公司开始使用语义搜索技术来提供更相关的搜索结果。

如今,许多搜索引擎和公司正在使用语义搜索来提高搜索结果的准确性和相关性。其中包括于 2012 年推出知识图谱的谷歌,以及使用语义搜索为其 Alexa 虚拟助手提供支持的亚马逊。随着人工智能领域的不断发展,语义搜索可能会变得更加复杂且适用于广泛的应用。

语义搜索的最新改进


语义搜索的最新改进有助于进一步推动该领域的发展。一些最值得注意的包括:

基于 Transformer 的模型:基于 Transformer 的模型,例如 BERT(来自 Transformers 的双向编码器表示),彻底改变了自然语言处理和语义搜索。这些模型能够更好地理解单词和短语的上下文,从而更容易提供更相关的搜索结果。

多模态搜索:多模态搜索是指跨文本、图像、视频等多种模式搜索信息的能力。机器学习的最新进展使得开发更准确、更复杂的多模态搜索算法成为可能。

对话式搜索:对话式搜索涉及使用自然语言处理和机器学习来为用户查询提供更准确、更人性化的响应。这项技术已经被用于虚拟助手,例如亚马逊的 Alexa 和苹果的 Siri。

个性化:个性化是指根据用户的偏好和之前的搜索历史来定制搜索结果的能力。随着在线可用数据量的不断增长,这一点变得越来越重要。

特定领域搜索:特定领域搜索涉及使用语义搜索技术在特定领域或行业(例如医疗保健或金融)内进行搜索。这有助于为这些行业的用户提供更准确、更相关的搜索结果。

总体而言,语义搜索的最新进展使得在线查找信息变得更加容易,并为未来更复杂的搜索算法铺平了道路。

语义搜索和知识图谱有什么关系?


语义搜索和知识图(knowledge graph)密切相关,因为两者都涉及使用语义技术来改进搜索结果。

知识图是一种用于组织和表示知识的图形结构,通过节点和边的连接展示实体和关系之间的语义关联性。例如,知识图可能包含有关特定公司的信息,包括其位置、产品和员工以及这些实体之间的关系。

另一方面,语义搜索是一种使用自然语言处理和机器学习来更好地理解搜索查询中单词和短语的含义的搜索技术。语义搜索算法使用知识图和其他语义技术来分析实体和概念之间的关系,并基于此分析提供更相关的搜索结果。

换句话说,知识图谱为语义搜索提供了丰富的知识背景,帮助理解查询意图和提供准确的搜索结果。同时,语义搜索可以帮助构建和扩展知识图谱,提高搜索的准确性和语义理解能力。

例如,谷歌的知识图使用庞大的结构化数据数据库来支持其搜索结果,并提供有关搜索结果中出现的实体(例如人物、地点和事物)的附加信息。这使得用户更容易找到他们正在寻找的信息并探索相关的概念和实体。

向量数据库、知识图谱和语义搜索


向量数据库是另一种可以与语义搜索和知识图相结合使用以改进搜索结果的技术。它主要用于处理和分析具有向量特征的数据,如图像、音频、文本、时间序列等。

传统的关系型数据库主要用于存储结构化的数据,而向量数据库则专注于存储和处理高维向量。它的设计目标是能够高效地进行向量相似性搜索和聚类等操作,以支持复杂的数据分析和机器学习任务。向量数据库使用机器学习算法将数据表示为向量,向量是数据的数学表示,可用于各种计算任务,例如,向量可用于表示人、地点和事物等实体以及它们之间的关系。通过比较这些向量,搜索算法可以识别数据本身可能无法立即显现的关系和模式。

在语义搜索和知识图的背景下,向量数据库可以通过更好地理解实体和概念之间的关系来提高搜索结果的准确性。

例如,当用户搜索“ London ”时,语义搜索算法可以使用知识图和向量数据库来了解用户可能指的是英国伦敦市,而不是其他同名实体。

通过使用向量数据库来表示和比较实体和概念,搜索算法可以提供更相关和更准确的搜索结果。

总体而言,向量数据库、语义搜索和知识图谱都是共同提高搜索算法的准确性和效率的技术。通过利用这些技术,搜索引擎和其他应用程序可以更好地理解实体和概念之间的关系,从而更轻松地找到用户正在寻找的信息。

关于 Easysearch


![Easysearch](https://infinilabs.com/img/blo ... er.png)

INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

官网文档:<https://infinilabs.com/docs/latest/easysearch>;

参考资料


搜索客社区日报 第1780期 (2024-01-24)

社区日报kin122 发表了文章 • 0 个评论 • 3255 次浏览 • 2024-01-24 16:01 • 来自相关话题

1.Elasticsearch:倒数排序融合 - Reciprocal rank fusion (RRF)
https://zhuanlan.zhihu.com/p/678234806
2.ClickHouse、Doris及ElasticSearch性能压测
https://zhuanlan.zhihu.com/p/678885098
3.日志解析神器——Logstash中的Grok过滤器使用详解
https://mp.weixin.qq.com/s/-wHeZ6NvXr8syccvKqz4OQ


编辑:kin122
更多资讯:http://news.searchkit.cn

【搜索客社区日报】 第1777期 (2024-01-22)

社区日报yuebancanghai 发表了文章 • 0 个评论 • 3594 次浏览 • 2024-01-22 13:33 • 来自相关话题

1. Elasticsearch聚合后分页深入详解
https://blog.csdn.net/laoyang3 ... 12946
2、Elasticsearch 对数据进行预处理
https://blog.csdn.net/cr7258/a ... 59631
3、阿里巴巴长文档推荐系统在企业数字化中的应用
https://zhuanlan.zhihu.com/p/677525998

编辑:yuebancanghai
更多资讯:http://news.searchkit.cn