悟空,拿我的打狗棒来

【搜索客社区日报】第1880期 (2024-08-13)

社区日报God_lockin 发表了文章 • 0 个评论 • 2741 次浏览 • 2024-08-13 17:29 • 来自相关话题

1. 用es做databricks的日志系统该咋整?(需要梯子)
https://towardsdatascience.com ... cbc88
2. 用flink、redpanda构建es索引快如闪电(需要梯子)
https://redpanda-data.medium.c ... c5939
3. 用 pysync 做pg和es的实时同步(需要梯子)
https://medium.com/%40toluaina ... 9b4e9
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
 

【搜索客社区日报 】第1879期 (2024-08-12)

社区日报Muses 发表了文章 • 0 个评论 • 2455 次浏览 • 2024-08-12 08:10 • 来自相关话题

 
🎉 活动预告:
【8月17日】第2期 Easysearch 免费认证培训开放报名啦,搜索客社区邀请大家报名参与,共同探索 Easysearch 的无限可能,开启搜索技术进阶的新篇章!
https://elasticsearch.cn/article/15226

 1. 如何设计一个数据标注系统
https://bbs.huaweicloud.com/blogs/393224

2. 智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
https://www.jiqizhixin.com/articles/2024-07-26-7

3. 旧物利用 - 将机顶盒改造为一台Linux开发机!
https://www.cnblogs.com/onecainiao/p/18353586

4. 2024年海内外数据库技术演进深度解析:大数据浪潮下数据库的演进
https://www.vzkoo.com/read/202 ... .html

5. 十分钟学会使用 Elasticsearch 优雅搭建自己的搜索系统(附源码)
https://developer.aliyun.com/article/870908

编辑:Muse
更多资讯:http://news.searchkit.cn

scroll拉取时中途出现空结果

ElasticsearchFred2000 回复了问题 • 2 人关注 • 2 个回复 • 3331 次浏览 • 2024-08-09 23:27 • 来自相关话题

【搜索客社区日报】第1878期 (2024-08-09)

社区日报Fred2000 发表了文章 • 0 个评论 • 2699 次浏览 • 2024-08-09 19:14 • 来自相关话题

1、从大数据到大模型:搜索推荐技术的前沿探索
https://mp.weixin.qq.com/s/uoYfm5SjM4VRHPj1xjEd-A

2、MindSearch: 模仿人类思维的LLM搜索工具|论文分享
https://mp.weixin.qq.com/s/FwhyaKdBBSgJBcGIYqeI9A

3、AI 搜索产品+1,实测 MindSearch 产品效果及代码实现
https://mp.weixin.qq.com/s/FFFgsqJEw9fV6bwXSHkrrg

4、Elasticsearch 磁盘空间异常:一次成功的故障排除案例分享
https://infinilabs.cn/blog/202 ... rmal/

5、万亿赛道!向量数据库--AI 大模型技术底座解决方案深度分析 2024
https://blog.csdn.net/m0_59235 ... 87037

编辑:Fred 
更多资讯:http://news.searchkit.cn

【第2期】INFINI Easysearch 免费认证培训开放报名啦

EasysearchINFINI Labs 小助手 发表了文章 • 0 个评论 • 2672 次浏览 • 2024-08-09 16:55 • 来自相关话题

微信公众号封面.png



探索 Easysearch 的无限可能,与 INFINI Labs 共赴搜索技术前沿!

随着数字化转型的加速,搜索技术已成为企业数据洞察的核心。INFINI Labs 作为搜索创新技术的引领者,诚邀所有对 Easysearch 搜索引擎感兴趣的开发者、技术爱好者及合作伙伴,参加我们即将于 2024 年 8 月 17 日至 18 日举办的 第二期 Easysearch 线上免费培训活动。这不仅是一场知识的盛宴,更是技能提升的加速器,将助您在职业道路上迈出坚实的一步!

活动亮点


  • 系统课程,全面深入:从 Easysearch 的基本概念到环境搭建,再到高级功能的实战应用,INFINI Labs 的技术专家将为您带来全面而深入的讲解,确保每位参与者都能收获满满。
  • 实战导向,解决痛点:课程设计紧贴实际需求,旨在帮助学员掌握 Easysearch 的核心技术,有效解决工作中的搜索需求和技术难题,让理论知识迅速转化为实践能力。
  • 认证证书,助力进阶:后期 INFINI Labs 将推出 Easysearch 认证考试。通过考试的学员将获得官方认证的 Easysearch 证书,为您的职业发展增添强力背书,开启职业生涯的新篇章。

    培训时间


    2024 年 8 月 17 日至 18 日(周六、周日)共两天,每天具体培训时间:

  • 上午 09:30 ~ 11:30
  • 下午 14:00 ~ 16:00

    培训内容概览


    第一阶段:初识 Easysearch


  • Easysearch 环境搭建与对比,了解其与 Elasticsearch 的差异;
  • 功能初探:身份验证、数据脱敏、权限控制等,全面掌握 Easysearch 的基础功能;
  • 容灾技术:兼容性验证、跨集群复制等,确保您的搜索服务稳定可靠;

    第二阶段:Easysearch 高阶使用


  • 深度探析:性能压测、数据迁移、请求管理等,提升 Easysearch 的使用效率;
  • 高级功能:快照管理、可视化看板、告警功能等,让您的搜索服务更加智能;
  • 生态集成:Filebeat、Logstash、LangChain 等,轻松实现 Easysearch 与其他工具的集成;

    参与方式


    本次活动完全免费,名额有限,请尽快报名,同时微信扫码添加小助手进群(培训会议地址将在微信群公布),锁定您的学习席位!

    扫码或点击 [我要报名](https://3884926668399.huodongx ... 314822)

    ![报名](https://infinilabs.cn/img/blog ... up.jpg)

    👉 立即行动:不要错过这次提升自我、与行业精英共成长的宝贵机会。让我们相聚云端,共同探索 Easysearch 的无限可能,开启技术进阶的新篇章!

    参会提示


  • 培训内容涉及动手实践,请务必自备电脑(Windows 系统环境请提前安装好 Linux 虚拟机);
  • 请提前在 INFINI Labs 官网下载对应平台最新安装包(INFINI Easysearch、INFINI Gateway、INFINI Console);
  • 下载地址:[https://infinilabs.cn/download](https://infinilabs.cn/download)

    联系我们


    如有任何疑问,欢迎通过微信添加 [小助手:INFINI-Labs] 与我们联系。

    INFINI Labs 期待与您相约,共赴这场技术盛宴!

    关于 Easysearch


    ![Easysearch](https://infinilabs.cn/img/blog ... er.png)

    Easysearch 是一个分布式的近实时搜索与分析引擎,基于开源的 Apache Lucene 构建。它旨在提供一个自主可控、轻量级的 Elasticsearch 可替代版本,并不断完善和支持更多的企业级功能。与 Elasticsearch 相比,Easysearch 更注重搜索业务场景的优化,同时保持其产品的简洁与易用性。

    详情参见:[Easysearch 介绍](https://infinilabs.cn/products/easysearch)

    Easysearch 有奖征文活动推荐


    ![黑神话悟空](https://infinilabs.cn/img/blog ... er.png)

    无论你是 Easysearch 的老用户,还是第一次听说这个名字,只要你对 INFINI Labs 旗下的 Easysearch 产品感兴趣,或者是希望了解 Easysearch,都可以参加这次活动。

    详情查看:[Easysearch 征文活动](https://infinilabs.cn/blog/202 ... ukong/)

    关于极限科技(INFINI Labs)


    ![INFINI Labs](https://infinilabs.cn/img/blog ... bs.png)

    极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

    极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

    官网:[https://infinilabs.cn](https://infinilabs.cn)

Elasticsearch 磁盘空间异常:一次成功的故障排除案例分享

ElasticsearchINFINI Labs 小助手 发表了文章 • 0 个评论 • 3676 次浏览 • 2024-08-09 00:18 • 来自相关话题

故障现象


近日有客户找到我们,说有个 ES 集群节点,磁盘利用率达到了 82% ,而其节点才 63% ,想处理下这个节点,降低节点的磁盘利用率。

起初以为是没有打开自动平衡导致的,经查询,数据还是比较平衡的。
![](https://infinilabs.cn/img/blog ... /1.png)
利用率较高的是 76 节点,如果 76 节点的分片比其他节点多,好像还比较合乎逻辑,但它反而比其他节点少了 12-15 个分片。那是 76 节点上的分片比较大?

索引情况


![](https://infinilabs.cn/img/blog ... /2.png)
图中都是较大的索引,1 个索引 25TB 左右,共 160 个分片。

分片大小


节点 64
![](https://infinilabs.cn/img/blog ... /3.png)
节点 77
![](https://infinilabs.cn/img/blog ... /4.png)
节点 75
![](https://infinilabs.cn/img/blog ... /5.png)
问题节点 76
![](https://infinilabs.cn/img/blog ... /6.png)
可以看出分片大小没有出现较大的倾斜,分片大小和数据平衡的原因都被排除。

换个方向思考,节点 76 比其他节点多使用了磁盘空间 8 个 TB 左右,集群最大分片大小约 140GB ,8000/140=57 ,即节点 76 至少要比其他节点多 57 个分片才行,啊这...

会不会有其他的文件占用了磁盘空间?

我们登录到节点主机,排查是否有其他文件占用了磁盘空间。

结果:客户的数据路径是单独的数据磁盘,并没有其他文件,都是 ES 集群索引占用的空间。

现象总结


分片大小差不多的情况下,节点 76 的分片数还比别的节点还少 10 个左右,它的磁盘空间反而多占用了 8TB 。

这是不是太奇怪了?事出反常必有妖,继续往下查。

原因定位


通过进一步排查,我们发现节点 76 上有一批索引目录,在其他的节点上没有,而且也不在 GET \_cat/indices?v 命令的结果中。说明这些目录都是 dangling 索引占用的。

dangling 索引产生的原因


当 Elasticsearch 节点脱机时,如果删除的索引数量超过 Cluster.indes.tombstones.size,就会发生这种情况。

解决方案


通过命令删除 dangling 索引:

<br /> DELETE /\_dangling/<index-uuid>?accept_data_loss=true<br />

最后


这次的分享就到这里了,欢迎与我一起交流 ES 的各种问题和解决方案。
![](https://infinilabs.cn/img/blog ... gf.png)

关于极限科技(INFINI Labs)


![INFINI Labs](https://infinilabs.cn/img/blog ... bs.png)

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

官网:[https://infinilabs.cn](https://infinilabs.cn)

【搜索客社区日报】第1877期 (2024-08-08)

社区日报Se7en 发表了文章 • 0 个评论 • 2502 次浏览 • 2024-08-08 13:19 • 来自相关话题

1.实战从零开始实现Raft|得物技术
https://mp.weixin.qq.com/s/R2XXYFoR67VsiGwT6XM96A
2.跟着 iLogtail 学习高质量软件建设
https://mp.weixin.qq.com/s/c4siqtB1z9PDQ-N8bWRG5Q
3.如何在生成式AI里使用 Ray Data 进行大规模 RAG 应用的 Embedding Inference
https://mp.weixin.qq.com/s/HMu5XlMsZLOh9y5KtwzHWw
4.2 万 star 开发者瑞士军刀!!! 几百种工具绝对能满足你
https://mp.weixin.qq.com/s/zsuwoIOsVKX__NAp34uYBw
5.DeepSeek API 创新采用硬盘缓存,价格再降一个数量级
https://platform.deepseek.com/ ... 0802/

编辑:Se7en  
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第1876期 (2024-08-07)

社区日报kin122 发表了文章 • 0 个评论 • 2545 次浏览 • 2024-08-07 15:16 • 来自相关话题

1.使用 ChatGPT 构建知识图谱(搭梯)
https://medium.com/%40dalleman ... 83e8a
2.如何将任何文本转换成概念图(搭梯)
https://medium.com/%40lamslide ... ff732
3.Observerbility:使用 Elastic 中的 GenAI 进行 NGINX 日志分析
https://www.elastic.co/observa ... astic


编辑:kin122 
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第1875期 (2024-08-06)

社区日报God_lockin 发表了文章 • 0 个评论 • 2297 次浏览 • 2024-08-06 17:13 • 来自相关话题

1. 优化es磁盘使用的小技巧(需要梯子)
https://medium.com/%40usetech/ ... d5ede
2. Opensearch VS Elasticsearch(需要梯子)
https://medium.com/%40akcoding ... 0ae6a
3. “美丽”搜索能成为es的平替吗?
https://github.com/meilisearch/meilisearch
 
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
 

【第2期】2024 搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读

活动searchkit 发表了文章 • 0 个评论 • 2893 次浏览 • 2024-08-06 11:47 • 来自相关话题

本次活动由 搜索客社区、极限科技(INFINI Labs)联合举办,活动主题将深入探讨 Elasticsearch 的两个核心方面:代码结构以及写入和查询的关键流程。本次活动将为 Elasticsearch 初学者和有经验的用户提供宝贵的见解,欢迎大家报名参加、交流学习。

活动主题:Elasticsearch 的代码结构和写入查询流程的解读
活动时间:2024 年 8 月 14 日 19:00-20:00(周三)
活动形式:微信视频号(极限实验室)直播
报名方式:关注或扫码海报中的二维码进行预约

![](https://infinilabs.cn/img/blog ... /1.png)

嘉宾介绍


张磊,极限科技搜索引擎研发负责人,对 Elasticsearch 和 Lucene 源码比较熟悉,目前主要负责公司的 Easysearch 产品的研发以及客户服务工作。

主题摘要


本次分享将探讨 Elasticsearch 的代码结构及其写入和查询流程。内容包括:项目架构、核心模块、插件系统,以及文档索引和查询的各个阶段与分布式查询协调。

活动亮点


  1. 深入解析 Elasticsearch 代码结构

    • 项目的整体结构:了解 Elasticsearch 项目的组织方式。
    • 核心模块及其职责:学习 Elasticsearch 的核心模块及其在系统中的具体角色。
    • 插件系统的设计:探索 Elasticsearch 灵活的插件系统设计及其扩展方式。

  2. 详细解读 Elasticsearch 写入和查询流程

    • 文档索引过程的各个阶段:跟随文档从初始接收至最终存储的索引过程。
    • 查询解析和执行的步骤:理解 Elasticsearch 中查询解析和执行的各个步骤。
    • 分布式查询的协调过程:学习 Elasticsearch 如何在分布式架构中协调查询,以提供高效且准确的搜索结果。

      参与有奖


      直播中将设有福袋抽奖环节,参与就有机会获得 INFINI Labs 周边纪念品,包括 T 恤、鸭舌帽、咖啡杯、指甲刀套件等等(图片仅供参考,款式、颜色与尺码随机)。

      ![](https://infinilabs.cn/img/blog ... ts.png)

      活动交流


      活动交流群二维码 7 天内(8 月 12 日前)有效,如过期请添加小助手微信拉群。

      ![](https://infinilabs.cn/img/blog ... /2.jpg)

      本次 Meetup 是深入了解 Elasticsearch 内部工作机制、提升使用技能的绝佳机会。不要错过!

      Meetup 讲师招募


      ![](https://infinilabs.cn/img/blog ... ng.png)

      搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。

      讲师报名链接:[http://cfp.searchkit.cn](http://cfp.searchkit.cn)
      或扫描下方二维码,立刻报名成为讲师!

      ![](https://infinilabs.cn/img/blog ... de.jpg)

      Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。

      我们热切期待您的精彩分享!

      往期回顾


      [【第 1 期】2024 搜索客 Meetup | Easysearch 结合大模型实现 RAG](https://elasticsearch.cn/article/15219)

      关于 搜索客(SearchKit)社区


      搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级,以新的 Slogan:“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等,为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。社区官网:[https://searchkit.cn](https://searchkit.cn) 。

【搜索客社区日报】第1874期(2024-08-05)

社区日报Muses 发表了文章 • 0 个评论 • 2459 次浏览 • 2024-08-05 08:18 • 来自相关话题

1、重新认识 Elasticsearch- 一体化矢量搜索引擎
https://xie.infoq.cn/article/a ... e29b0

2、大模型与数据库:AI 时代的双向助推力
https://blog.csdn.net/OpenPie/ ... 98383

3、李飞飞团队发布《2024年人工智能指数报告》:10大趋势,揭示AI大模型喜与忧
https://www.thepaper.cn/newsDe ... 45165

4、大杀器!多Agent系统进入自动化编程领域,程序员会失业吗
https://blog.csdn.net/kiiy2/ar ... 7.235^v43^control&spm=1001.2101.3001.4242.1&utm_relevant_index=1

5、将成千上万的 Agent 连接起来,互相协作!智能体互联网 IoA 诞生了
https://blog.csdn.net/dQCFKyQD ... .5928

编辑:Muse 
更多资讯:http://news.searchkit.cn

活动回顾 | 2024 搜索客社区 Meetup 首期线上直播活动圆满结束,附 PPT 下载

活动searchkit 发表了文章 • 0 个评论 • 2717 次浏览 • 2024-08-03 16:09 • 来自相关话题

2024 年 7 月 31 日,由搜索客社区和极限科技(INFINI Labs)联合举办的首期线上 Meetup 技术交流直播活动圆满结束。本次直播活动吸引了超过 300 人次的技术爱好者参与,共同探讨了 Easysearch、大模型、RAG 等前沿技术和实践应用,为广大搜索技术爱好者提供了一个宝贵的学习和交流平台。

20240731-164852_副本.png



主题:Easysearch 结合大模型实现 RAG


本次Meetup活动我们邀请到了极限科技高级解决方案架构师、《老杨玩搜索》栏目 B站UP主 杨帆老师,为大家带来了主题为《Easysearch 结合大模型实现 RAG》精彩分享。

5.png



杨帆老师首先对 LangChain 进行了全面的介绍,包括其作用、组件构成和优势。接着,深入剖析了 RAG 技术的背景和局限性,探讨了 RAG 在信息获取方面的创新和挑战。在 LangChain 框架下,杨帆老师详细阐述了实现 RAG 的具体工作流程。最后通过 Demo 演示,展示了如何使用 Easysearch 结合大模型 ollama,实现企业内部 QA 知识问答系统。这一环节不仅展示了技术的实用性,也极大地激发了参会者的学习兴趣。

1.jpg



2.jpg



3.jpg



4.jpg



PPT 部分内容截图



讲师分享过程中,直播间气氛非常活跃。参会者积极在直播间评论区留言,与讲师进行了深入的问答互动。同时,在互动环节中,主持人进行了激动人心的抽奖活动,将活动气氛推向了高潮,为参会小伙伴带来了额外的惊喜。

随着活动的圆满结束,参与者们不仅收获了丰富的技术知识和实际操作经验,还通过在线交流加深了对 Easysearch 和 RAG 的了解。这次 Meetup 为大家提供了一个分享和学习的平台,共同推动了技术的进步和社区的发展。

最后感谢大家的参与和支持,让我们共同期待下一次的 搜索客社区 Meetup 活动带来更多的精彩内容!

## 本期 Meetup 的 PPT 下载
本次 PPT 下载的链接:https://elasticsearch.cn/slides/324

## 本期 Meetup 视频回放

扫码关注极限实验室视频号查看直播回放,或者扫码关注极限实验室 B站账号,可查看本期Meetup活动视频。我们也会在视频号、B站持续更新最新技术视频,欢迎通过点赞、投币,收藏,三连来支持我们。

视频号-B站-二维码banner.png


## 下期 Meetup 主题预告

视频号直播预约.jpg


## Meetup 活动讲师招募
![](https://elasticsearch.cn/uploa ... 0b.png)

搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。

讲师报名链接:http://cfp.searchkit.cn
或扫描下方二维码,立刻报名成为讲师!

搜索客Meetup讲师报名二维码.png



Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。

我们热切期待您的精彩分享!

【搜索客社区日报】第1873期 (2024-08-02)

社区日报Fred2000 发表了文章 • 0 个评论 • 2514 次浏览 • 2024-08-02 14:22 • 来自相关话题

1、GraphRAG 深入解析
https://mp.weixin.qq.com/s/fhJfL9LX2SkcVqcuJ3RcYg

2、「最佳实践」借助网关双写,实现 Elasticsearch 的无缝在线迁移
https://cloud.tencent.com/deve ... 90434

3、Easysearch、Elasticsearch、Amazon OpenSearch 快照兼容对比
https://blog.csdn.net/weixin_3 ... 47448

4、DB 大咖对话 | 数据要素与人工智能对我国数据库技术和产业的影响
https://www.infoq.cn/article/OVogOUR5HtKoou9x8ugC

5、万字长文年中盘点,2024 上半年大模型技术突破与应用展望
https://xie.infoq.cn/article/d ... 9c6e2

编辑:Fred 
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第1872期 (2024-08-01)

社区日报Se7en 发表了文章 • 0 个评论 • 2825 次浏览 • 2024-08-01 14:10 • 来自相关话题

1.GraphRAG:解锁LLM对叙述性私有数据的发现
https://www.microsoft.com/en-u ... data/
2.Perplexity 牛逼!50 人团队年入 1.5 亿,这家 AI 独角兽如何在2年内撼动谷歌地位?
https://mp.weixin.qq.com/s/R-JczQeEsDJzV4YnpFCAPA
3.使用 OpenTelemetry 实现基于 LLM 的应用的可观测性介绍
https://mp.weixin.qq.com/s/Y0T4KUyJ3Fl0q5Zbz-bzOA

编辑:Se7en  
更多资讯:http://news.searchkit.cn

【搜索客社区日报】 第1871期 (2024-07-31)

社区日报kin122 发表了文章 • 0 个评论 • 2857 次浏览 • 2024-07-31 12:27 • 来自相关话题

1.Chunk的大小如何影响语义检索结果(搭梯)
https://ai.plainenglish.io/inv ... d8ca1
2.2800 份 AI 文档的检索增强生成 — 现场演示(搭梯)
https://medium.com/%40lamslide ... ff732
3.IK分词器原理
https://juejin.cn/post/6845166891120476168


编辑:kin122 
更多资讯:http://news.searchkit.cn