Elasticseach Ingest 模块&&漏洞分析

Radiancebobo 发表了文章 • 0 个评论 • 5170 次浏览 • 2024-12-23 12:58 • 来自相关话题

ES官方版本为什么到现在为止没有提供限流的功能?

贡献

Fred2000 回复了问题 • 2 人关注 • 1 个回复 • 2738 次浏览 • 2024-12-19 19:18 • 来自相关话题

es filter script获取nested结构数据如何实现？

贡献

duanxiaobiao 回复了问题 • 2 人关注 • 1 个回复 • 4156 次浏览 • 2024-11-16 22:04 • 来自相关话题

目前市面上常用的ES压测工具是啥

贡献

wu370324 回复了问题 • 3 人关注 • 2 个回复 • 4205 次浏览 • 2024-10-31 11:51 • 来自相关话题

ES的_sql查询不返回长度超过ingore_above记录

贡献

kin122 回复了问题 • 2 人关注 • 1 个回复 • 4770 次浏览 • 2024-12-07 23:08 • 来自相关话题

es 中keyword查询构建bitSet成本

贡献

Fred2000 回复了问题 • 2 人关注 • 1 个回复 • 5750 次浏览 • 2024-09-25 18:30 • 来自相关话题

_reindex时怎样判断当目标记录中某个字段值大于原记录字段时跳过不更新？

贡献

kin122 回复了问题 • 3 人关注 • 2 个回复 • 4829 次浏览 • 2024-12-07 23:13 • 来自相关话题

Elastic 宣布修改开源协议为 AGPL：Elasticsearch 再次成为开源软件

searchkit 发表了文章 • 0 个评论 • 6979 次浏览 • 2024-08-30 11:26 • 来自相关话题

今日快讯！就在刚刚，开源搜索领域行业巨头 Elastic 官方博客发表了一篇最新公告《Elasticsearch is Open Source, Again》，Elastic 创始人& CTO Shay Banon 宣布 Elasticsearch 和 Kibana 许可证协议修改为 AGPL。

以下为搜索客社区从 Elastic 官方博客翻译的原文内容：

---

Elasticsearch 再次成为开源软件

[D.N.A] Elasticsearch 和 Kibana 现在可以再次被称为开源软件了。这句话让我感到无比的兴奋。真的忍不住跳起来庆祝！我们所有在 Elastic 的人都很高兴。开源精神是我的DNA，也是 Elastic 的DNA。能够再次称 Elasticsearch 为开源软件，真的是一种纯粹的快乐。

[LOVE.] 简而言之，我们将在接下来的几周内，除了 ELv2 和 SSPL 之外，增加 AGPL 作为另一个许可选项。在更改许可后，我们从未停止过像一个开源社区一样相信和行动。但通过使用 AGPL 这一获得开放源码促进会（OSI）批准的许可，消除了人们可能存在的任何疑问或混淆。

[Not Like Us] 我们在 Elastic 从未停止过对开源的信仰。我个人对开源的信仰也从未动摇，至今已有 25 年了。那么为什么三年前我们要做出改变呢？我们遇到了与 AWS 相关的问题，以及他们的服务引发的市场混乱。在尝试了所有能想到的其他选项后，我们更改了许可协议，明知道这会导致 Elasticsearch 被分叉成另一个名称并走上不同的发展轨迹。这是一个漫长的故事。

[Like That] 好消息是，虽然过程痛苦，但结果奏效了。三年后，亚马逊已经完全投入到了他们的分叉项目中，市场的混乱（大部分）得到了缓解，我们与 AWS 的合作伙伴关系比以往更强。我们甚至被评为 AWS 的年度合作伙伴。我一直希望时间能过去得足够久，以至于我们可以安全地回到开源项目的状态——现在终于到了。

[All The Stars] 我们希望尽可能简化用户的使用体验。我们有用户非常喜欢 ELv2（一个受 BSD 启发的许可）。我们也有用户已经批准使用 SSPL（通过 MongoDB 使用）。这就是为什么我们只是增加了一个选项，而不是移除任何东西。如果你已经在使用并喜欢 Elasticsearch，请继续使用，没有任何变化。对于其他人，现在你也可以选择使用 AGPL。

[LOYALTY.] 我们选择 AGPL 而不是其他许可，是因为我们希望通过与 OSI 的合作，能在开源许可领域创造更多的选项。随着我们更改许可以来的发展（例如 Grafana 从 Apache2 转移到 AGPL），也许 AGPL 已经足够适用于像我们这样的基础设施软件了。我们致力于找到最合适的解决方案。

[euphoria] 我非常高兴能够再次称 Elasticsearch 为开源软件。

[Alright] 任何改变都可能引发混淆，当然也可能引来一些网络喷子。（网络喷子总是存在的，对吧？）让我们愉快地回答一些可能出现的问题吧。我可以想象到的一些问题如下，但我们会继续补充。

“更改许可是个错误，Elastic 现在在回撤”：我们在三年前更改许可时消除了很多市场混乱。由于我们的行动，很多事情已经改变。现在是一个完全不同的市场环境。我们不生活在过去。我们希望为用户打造一个更好的未来。正是因为我们当时采取了行动，现在我们才有能力采取新的行动。

“AGPL 不是真正的开源许可，X 才是”：AGPL 是获得 OSI 批准的许可，并且被广泛采用。例如，MongoDB 曾经使用 AGPL，Grafana 现在也是 AGPL。这表明 AGPL 并不影响使用或流行度。我们选择 AGPL 是因为我们认为这是与 OSI 一起为世界开辟更多开源道路的最佳方式，而不是减少开源。

“Elastic 更改许可是因为他们表现不好”：我要说的是，我今天对 Elastic 的未来依然充满期待。我为我们的产品和团队的执行力感到无比自豪。我们发布了无状态的 Elasticsearch ES|QL 和大量用于 GenAI 用例的向量数据库/混合搜索改进。我们在日志记录和可观察性方面大力投入 OTel。我们的安全产品 SIEM 不断添加令人惊叹的功能，并且是市场上增长最快的产品之一。用户的反应让我们感到非常谦卑。股市总有起伏，但我可以向你保证，我们始终着眼于长远发展，而这次的变更就是其中的一部分。

如果我们看到更多问题，会在上面继续添加，以期减少混淆。

[HUMBLE.] 为未来而构建真是令人兴奋。Elasticsearch 回归开源。万岁！这真是一件美妙的事情。今天真是美好的一天。

Forever :elasticheart: Open Source

Shay 2024-08-30

---

原文地址：https://www.elastic.co/blog/el ... gain/

社区热评

Elasticsearch 再次回归开源的消息迅速引发了技术社区的广泛关注。这不仅是 Elastic 对自身开源信念的重申，也是其在激烈市场竞争中精心策划的一次战略调整。

三年前，Elastic 因与 AWS 的市场竞争而选择更改许可协议，这一决定在当时引发了不小的争议。尽管如此，事实证明，这一策略有效地减少了市场上的混淆，也为 Elastic 与 AWS 的合作奠定了更坚实的基础。如今，Elastic 再度选择开源，并新增 AGPL 作为许可选项，这一举措无疑展现了 Elastic 在市场中更加成熟的定位和对未来发展的自信。

这一变化不仅仅是一个公司的商业决策，更是开源生态系统的一次重要信号。Elastic 的回归开源，传递出一个明确的信息：即使在商业竞争中，开源仍然是企业实现长远发展的重要路径。随着这一决定的落地，其他软件公司可能也会重新审视自身的许可策略，推动更多开源项目的发展与创新。

此外，Elastic 选择 AGPL 作为新许可选项，也显示出其对开源生态未来走向的深刻洞察。AGPL 的引入，表明 Elastic 希望在开源社区中保持灵活性和多样性，同时推动整个行业向更加开放和透明的方向迈进。

总体而言，Elastic 重返开源的举动，不仅意在巩固其在开源社区中的地位，也为行业树立了一个新的标杆。这一事件无疑将成为开源软件发展史上的重要篇章，未来可能会激发更多企业重新考虑其开源战略，进而推动整个技术行业的进一步繁荣与进步。

让我们拭目以待！

ES在匹配结果数据量较少时，使用sort排序占用资源吗?

贡献

Fred2000 回复了问题 • 2 人关注 • 1 个回复 • 3819 次浏览 • 2024-08-28 10:16 • 来自相关话题

【第3期】2024 搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 下篇

searchkit 发表了文章 • 0 个评论 • 4371 次浏览 • 2024-08-21 13:00 • 来自相关话题

本次活动由搜索客社区、极限科技（INFINI Labs）联合举办，活动主题将深入探讨 Elasticsearch 的两个核心方面：代码结构以及写入和查询的关键流程。本次活动将为 Elasticsearch 初学者和有经验的用户提供宝贵的见解，欢迎大家报名参加、交流学习。

活动主题：Elasticsearch 的代码结构和写入查询流程的解读 - 下篇
活动时间：2024 年 8 月 28 日 19:00-20:00（周三）
活动形式：微信视频号（极限实验室）直播
报名方式：关注或扫码海报中的二维码进行预约

![](https://infinilabs.cn/img/blog ... /1.png)

嘉宾介绍

张磊，极限科技搜索引擎研发负责人，对 Elasticsearch 和 Lucene 源码比较熟悉，目前主要负责公司的 Easysearch 产品的研发以及客户服务工作。

主题摘要

本次分享将探讨 Elasticsearch 的代码结构及其写入和查询流程。内容包括：项目架构、核心模块、插件系统，以及文档索引和查询的各个阶段与分布式查询协调。

活动亮点

深入解析 Elasticsearch 代码结构：
- 项目的整体结构：了解 Elasticsearch 项目的组织方式。
- 核心模块及其职责：学习 Elasticsearch 的核心模块及其在系统中的具体角色。
- 插件系统的设计：探索 Elasticsearch 灵活的插件系统设计及其扩展方式。
详细解读 Elasticsearch 写入和查询流程：
- 文档索引过程的各个阶段：跟随文档从初始接收至最终存储的索引过程。
- 查询解析和执行的步骤：理解 Elasticsearch 中查询解析和执行的各个步骤。
- 分布式查询的协调过程：学习 Elasticsearch 如何在分布式架构中协调查询，以提供高效且准确的搜索结果。
  
  参与有奖
  
  直播中将设有福袋抽奖环节，参与就有机会获得 INFINI Labs 周边纪念品，包括 T 恤、鸭舌帽、咖啡杯、指甲刀套件等等（图片仅供参考，款式、颜色与尺码随机）。
  
  ![](https://infinilabs.cn/img/blog ... ts.png)
  
  活动交流
  
  本活动设有 Meetup 技术交流群，可添加小助手微信入群。
  
  ![](https://infinilabs.cn/img/comp ... at.jpg)
  
  本次 Meetup 是深入了解 Elasticsearch 内部工作机制、提升使用技能的绝佳机会。不要错过！
  
  Meetup 讲师招募
  
  ![](https://infinilabs.cn/img/blog ... ng.png)
  
  搜索客社区 Meetup 的成功举办，离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中，我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题，与大家分享您的经验。
  
  讲师报名链接：[http://cfp.searchkit.cn](http://cfp.searchkit.cn)
  或扫描下方二维码，立刻报名成为讲师！
  
  ![](https://infinilabs.cn/img/blog ... de.jpg)
  
  Meetup 活动聚焦 AI 与搜索领域的最新动态，以及数据实时搜索分析、向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。
  
  我们热切期待您的精彩分享！
  
  往期回顾
- [【第 2 期】2024 搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 上篇](https://mp.weixin.qq.com/s/oQNej6aDMzLp64_AKxSONw)
- [【第 1 期】2024 搜索客 Meetup | Easysearch 结合大模型实现 RAG](https://mp.weixin.qq.com/s/7fpPFGKltJASspmIaUqJMg)
  
  关于搜索客（SearchKit）社区
  
  搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级，以新的 Slogan：“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等，为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。
  
  社区官网：[https://searchkit.cn](https://searchkit.cn) 。

scroll拉取时中途出现空结果

贡献

Fred2000 回复了问题 • 2 人关注 • 2 个回复 • 4206 次浏览 • 2024-08-09 23:27 • 来自相关话题

Elasticsearch 磁盘空间异常：一次成功的故障排除案例分享

INFINI Labs 小助手发表了文章 • 0 个评论 • 4669 次浏览 • 2024-08-09 00:18 • 来自相关话题

故障现象

近日有客户找到我们，说有个 ES 集群节点，磁盘利用率达到了 82% ，而其节点才 63% ，想处理下这个节点，降低节点的磁盘利用率。

起初以为是没有打开自动平衡导致的，经查询，数据还是比较平衡的。
![](https://infinilabs.cn/img/blog ... /1.png)
利用率较高的是 76 节点，如果 76 节点的分片比其他节点多，好像还比较合乎逻辑，但它反而比其他节点少了 12-15 个分片。那是 76 节点上的分片比较大？

索引情况

![](https://infinilabs.cn/img/blog ... /2.png)
图中都是较大的索引，1 个索引 25TB 左右，共 160 个分片。

分片大小

节点 64
![](https://infinilabs.cn/img/blog ... /3.png)
节点 77
![](https://infinilabs.cn/img/blog ... /4.png)
节点 75
![](https://infinilabs.cn/img/blog ... /5.png)
问题节点 76
![](https://infinilabs.cn/img/blog ... /6.png)
可以看出分片大小没有出现较大的倾斜，分片大小和数据平衡的原因都被排除。

换个方向思考，节点 76 比其他节点多使用了磁盘空间 8 个 TB 左右，集群最大分片大小约 140GB ，8000/140=57 ，即节点 76 至少要比其他节点多 57 个分片才行，啊这...

会不会有其他的文件占用了磁盘空间？

我们登录到节点主机，排查是否有其他文件占用了磁盘空间。

结果：客户的数据路径是单独的数据磁盘，并没有其他文件，都是 ES 集群索引占用的空间。

现象总结

分片大小差不多的情况下，节点 76 的分片数还比别的节点还少 10 个左右，它的磁盘空间反而多占用了 8TB 。

这是不是太奇怪了？事出反常必有妖，继续往下查。

原因定位

通过进一步排查，我们发现节点 76 上有一批索引目录，在其他的节点上没有，而且也不在 GET \_cat/indices?v 命令的结果中。说明这些目录都是 dangling 索引占用的。

dangling 索引产生的原因

当 Elasticsearch 节点脱机时，如果删除的索引数量超过 Cluster.indes.tombstones.size，就会发生这种情况。

解决方案

通过命令删除 dangling 索引：

<br /> DELETE /\_dangling/<index-uuid>?accept_data_loss=true<br />

最后

这次的分享就到这里了，欢迎与我一起交流 ES 的各种问题和解决方案。
![](https://infinilabs.cn/img/blog ... gf.png)

关于极限科技（INFINI Labs）

![INFINI Labs](https://infinilabs.cn/img/blog ... bs.png)

极限科技，全称极限数据（北京）科技有限公司，是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室（INFINI Labs）致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队，采用天然分布式的方式来进行远程协作，员工分布在全球各地，希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选，为中国技术品牌输出添砖加瓦。

官网：[https://infinilabs.cn](https://infinilabs.cn)

构建Elasticsearch专家Bot的详细步骤指南

步骤1: 文档搜集

利用专业工具搜集Elasticsearch 8.13.2版本的官方文档，确保文档的完整性和准确性。如：Elasticsearch文档

步骤2: 知识库建立
在coze.cn平台上创建一个专门的知识库，命名清晰，便于管理和识别。

步骤3: 文档上传
将搜集到的Elasticsearch文档上传至新创建的知识库，确保文档格式适合后续的检索和分析。

步骤4: Bot创建
在coze.cn上创建一个新的Bot，命名为“Elasticsearch专家”，为其设定一个专业且引人注目的形象。

步骤5: 知识库配置
将步骤2中的知识库与新创建的Bot进行关联，确保Bot能够访问和利用这些文档资源。

步骤6: 功能插件集成
为Bot添加以下功能插件，以提供更全面的服务：
- 必应搜索引擎（Bing Web Search）：扩展信息检索范围。
- 代码执行器（CodeRunner）：实现代码的即时测试与验证。
- 微信搜索（WeChat Search）：增加中文信息源的覆盖。
  
  步骤7: 人设与回复逻辑定制
设定Bot的人设，明确其专业领域和能力，如：“我是Elasticsearch的专家，随时准备解答你的疑问。”
利用coze平台的AI技术，优化Bot的回复逻辑，确保其回答既准确又具有针对性。

步骤8: 测试与调整
在Bot设置完成后，进行全面的测试，确保其能够正确理解和回应各种查询。
根据测试反馈，调整Bot的交互逻辑和回答内容，以提高用户满意度。

步骤9: 发布与分享
完成所有设置和测试后，点击发布，使Bot正式上线。
通过Bot页面的商店功能，将你的“Elasticsearch专家”Bot分享给你的伙伴们，让他们也能享受到这一强大的学习工具。

步骤10: 持续优化与更新
定期回顾Bot的表现，根据用户反馈进行持续的优化和功能更新。
随着Elasticsearch版本的迭代，及时更新知识库内容，确保Bot提供的信息始终最新。

通过遵循这些步骤，你不仅能够构建一个功能全面的Elasticsearch专家Bot，而且能够确保它随着时间的推移不断进化，满足用户日益增长的需求。这将是一个不仅能提供文档查询，还能执行代码和搜索网络的智能助手，极大地提升你的Elasticsearch学习之旅。

通知设置 新通知

Elasticsearch

0.Ingest 节点 概述

写单个文档的流程概述

1. 模块总体概述

2. Processor 实现机制

抽象工厂设计模式的应用

Processor接口设计

Processor.Factory的设计

Processor.Factory的集中管理

组合以及装饰器设计模式的应用

如何自定义Processor 插件

3. Pipeline设计

如何管理Pipeline

责任链设计模式的应用

4. Ingest实战建议

5. 漏洞&&修复分析

CVE-2021-22144

漏洞复现

修复逻辑

CVE-2023-46673

漏洞复现

修复逻辑

CVE-2024-23450

漏洞复现

修复逻辑

6. 总结

Elasticsearch 再次成为开源软件

社区热评

嘉宾介绍

主题摘要

活动亮点

参与有奖

活动交流

Meetup 讲师招募

往期回顾

关于 搜索客（SearchKit）社区

故障现象

索引情况

分片大小

现象总结

原因定位

dangling 索引产生的原因

解决方案

最后

关于极限科技（INFINI Labs）

构建Elasticsearch专家Bot的详细步骤指南

步骤1: 文档搜集

步骤2: 知识库建立

步骤3: 文档上传

步骤4: Bot创建

步骤5: 知识库配置

步骤6: 功能插件集成

步骤7: 人设与回复逻辑定制

步骤8: 测试与调整

步骤9: 发布与分享

步骤10: 持续优化与更新

活动推荐

热门话题

通知设置新通知

0.Ingest 节点概述

关于搜索客（SearchKit）社区