
【搜索客社区日报】第2005期 (2025-03-19)
https://mp.weixin.qq.com/s/CGmCKllk_oOOqF5JYSGWCg
2.使用 Elasticsearch 构建多模式 RAG 系统:哥谭市的故事
https://blog.csdn.net/UbuntuTo ... 95339
3.如何分析和优化 Elastic 部署的存储占用
https://cloud.tencent.com/deve ... 03038
编辑:kin122
更多资讯:http://news.searchkit.cn
https://mp.weixin.qq.com/s/CGmCKllk_oOOqF5JYSGWCg
2.使用 Elasticsearch 构建多模式 RAG 系统:哥谭市的故事
https://blog.csdn.net/UbuntuTo ... 95339
3.如何分析和优化 Elastic 部署的存储占用
https://cloud.tencent.com/deve ... 03038
编辑:kin122
更多资讯:http://news.searchkit.cn 收起阅读 »

【搜索客社区日报】第2004期 (2025-03-18)
https://medium.com/%40vosarat1 ... 13041
2. 我们用ES做时序数据库的时候学到了什么(需要梯子)
https://medium.com/thousandeye ... cdb64
3. 日志领域Loki 是 ES 之后的版本答案吗?(需要梯子)
https://itnext.io/why-victoria ... 7c4d5
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
https://medium.com/%40vosarat1 ... 13041
2. 我们用ES做时序数据库的时候学到了什么(需要梯子)
https://medium.com/thousandeye ... cdb64
3. 日志领域Loki 是 ES 之后的版本答案吗?(需要梯子)
https://itnext.io/why-victoria ... 7c4d5
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
收起阅读 »

【搜索客社区日报】第2003期 (2025-03-17)
https://infinilabs.cn/blog/202 ... art2/
2、【第 8 期】搜索客 Meetup | Elasticsearch 的一些“双刃剑”特性
https://infinilabs.cn/blog/202 ... up-8/
3、DeepSearch/DeepResearch中最优文本段选择和URL重排
https://mp.weixin.qq.com/s/apnorBj4TZs3-Mo23xUReQ
4、深度对比分析:三大智能体平台Dify、Coze、FastGPT
https://mp.weixin.qq.com/s/ykekafh9F0678SX2fvtcgA
5、基于腾讯云ES混合搜索与TI-ONE部署DeepSeek,快速构建RAG应用
https://mp.weixin.qq.com/s/D0H4Td7v7Cf4ZjA3i943Hg
编辑:Muse
更多资讯:http://news.searchkit.cn
https://infinilabs.cn/blog/202 ... art2/
2、【第 8 期】搜索客 Meetup | Elasticsearch 的一些“双刃剑”特性
https://infinilabs.cn/blog/202 ... up-8/
3、DeepSearch/DeepResearch中最优文本段选择和URL重排
https://mp.weixin.qq.com/s/apnorBj4TZs3-Mo23xUReQ
4、深度对比分析:三大智能体平台Dify、Coze、FastGPT
https://mp.weixin.qq.com/s/ykekafh9F0678SX2fvtcgA
5、基于腾讯云ES混合搜索与TI-ONE部署DeepSeek,快速构建RAG应用
https://mp.weixin.qq.com/s/D0H4Td7v7Cf4ZjA3i943Hg
编辑:Muse
更多资讯:http://news.searchkit.cn 收起阅读 »

Easysearch 节点磁盘不足应对方法
Easyearch 为了防止索引将磁盘空间完全占满,使用磁盘水位线进行磁盘空间控制。之前有文章提过不同水位线的作用,以及如何使用 INFINI Console 提前进行告警,提前进行处理。本篇主要探讨提前处理的情况。
一、增加资源
如果资源充裕,可考虑为 Easysearch 集群扩充资源:
- 添加新的数据节点
扩充节点后,集群会自动进行数据平衡,可用下面的命令查看进度
GET /_cat/shards?v&h=state,node&s=state
如果响应中分片的状态是 RELOCATING ,则表示分片仍在移动。
- 扩充现有数据节点磁盘容量
扩充完后可查看磁盘利用率下降情况
GET _cat/allocation?v&s=disk.avail&h=node,disk.percent,disk.avail,disk.total,disk.used,disk.indices,shards
二、释放磁盘空间
如果无资源可添加,则考虑减少磁盘消耗:
- 删除无用索引
建议使用索引生命周期进行管理,自动删除过期索引。
- 删除多余副本
有些业务索引可能会有多分副本,可酌情缩减副本数,降低磁盘消耗。以下命令按副本数量和主存储大小的降序排列索引。
GET _cat/indices?v&s=rep:desc,pri.store.size:desc&h=health,index,pri,rep,store.size,pri.store.size
- 可搜索快照
对于有些数据平时不常用,但需要长期保留的,建议使用可搜索快照功能降低磁盘消耗。
三、索引空间优化
- 启用 ZSTD 压缩及 source_reuse 功能
Easysearch 支持 ZSTD 和 source_reuse 功能,对比默认的压缩算法,可大幅降低磁盘消耗。
可在创建索引时启用 ZSTD 和 source_reuse 功能,也可通过索引模板来进行设置,参考文档。
PUT test-index
{
"settings": {
"index.codec": "ZSTD",
"index.source_reuse": "true"
}
}
⚠️ 注意:当索引里包含 nested 类型映射,或插件额外提供的数据类型时,不能启用 source_reuse,例如 knn 索引。
- 索引优化
- mapping 优化
避免使用默认的 mapping 类型,因为字符串类型的数据将得到 text 和 keyword 两个类型的 mapping。 - 字段优化
统计指定索引每个字段的访问次数。
GET metrics/_field_usage_stats
分析指定索引各个字段占用磁盘的大小。
POST metrics/_disk_usage?run_expensive_tasks=true
结合以上信息进一步优化各个字段,如关闭不用的功能等
- 使用 rollup 功能
对于时序场景类的数据,往往会有大量的非常详细的聚合指标,随着时间的图推移,存储将持续增长。汇总功能可以将旧的、细粒度的数据汇总为粗粒度格式以进行长期存储。通过将数据汇总到一个单一的文档中,可以大大降低历史数据的存储成本。
Easysearch 的 rollup 具备一些独特的优势,可以自动对 rollup 索引进行滚动而不用依赖其他 API 去单独设置,并且在进行聚合查询时支持直接搜索原始索引,做到了对业务端的搜索代码完全兼容,从而对用户无感知。
如果有问题,欢迎加我微信沟通。
关于 Easysearch
INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
官网文档:https://docs.infinilabs.com/easysearch
作者:杨帆,极限科技(INFINI Labs)高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主,拥有十余年金融行业服务工作经验,熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作,服务国内私有化部署的客户。
Easyearch 为了防止索引将磁盘空间完全占满,使用磁盘水位线进行磁盘空间控制。之前有文章提过不同水位线的作用,以及如何使用 INFINI Console 提前进行告警,提前进行处理。本篇主要探讨提前处理的情况。
一、增加资源
如果资源充裕,可考虑为 Easysearch 集群扩充资源:
- 添加新的数据节点
扩充节点后,集群会自动进行数据平衡,可用下面的命令查看进度
GET /_cat/shards?v&h=state,node&s=state
如果响应中分片的状态是 RELOCATING ,则表示分片仍在移动。
- 扩充现有数据节点磁盘容量
扩充完后可查看磁盘利用率下降情况
GET _cat/allocation?v&s=disk.avail&h=node,disk.percent,disk.avail,disk.total,disk.used,disk.indices,shards
二、释放磁盘空间
如果无资源可添加,则考虑减少磁盘消耗:
- 删除无用索引
建议使用索引生命周期进行管理,自动删除过期索引。
- 删除多余副本
有些业务索引可能会有多分副本,可酌情缩减副本数,降低磁盘消耗。以下命令按副本数量和主存储大小的降序排列索引。
GET _cat/indices?v&s=rep:desc,pri.store.size:desc&h=health,index,pri,rep,store.size,pri.store.size
- 可搜索快照
对于有些数据平时不常用,但需要长期保留的,建议使用可搜索快照功能降低磁盘消耗。
三、索引空间优化
- 启用 ZSTD 压缩及 source_reuse 功能
Easysearch 支持 ZSTD 和 source_reuse 功能,对比默认的压缩算法,可大幅降低磁盘消耗。
可在创建索引时启用 ZSTD 和 source_reuse 功能,也可通过索引模板来进行设置,参考文档。
PUT test-index
{
"settings": {
"index.codec": "ZSTD",
"index.source_reuse": "true"
}
}
⚠️ 注意:当索引里包含 nested 类型映射,或插件额外提供的数据类型时,不能启用 source_reuse,例如 knn 索引。
- 索引优化
- mapping 优化
避免使用默认的 mapping 类型,因为字符串类型的数据将得到 text 和 keyword 两个类型的 mapping。 - 字段优化
统计指定索引每个字段的访问次数。
GET metrics/_field_usage_stats
分析指定索引各个字段占用磁盘的大小。
POST metrics/_disk_usage?run_expensive_tasks=true
结合以上信息进一步优化各个字段,如关闭不用的功能等
- 使用 rollup 功能
对于时序场景类的数据,往往会有大量的非常详细的聚合指标,随着时间的图推移,存储将持续增长。汇总功能可以将旧的、细粒度的数据汇总为粗粒度格式以进行长期存储。通过将数据汇总到一个单一的文档中,可以大大降低历史数据的存储成本。
Easysearch 的 rollup 具备一些独特的优势,可以自动对 rollup 索引进行滚动而不用依赖其他 API 去单独设置,并且在进行聚合查询时支持直接搜索原始索引,做到了对业务端的搜索代码完全兼容,从而对用户无感知。
如果有问题,欢迎加我微信沟通。
关于 Easysearch
INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
官网文档:https://docs.infinilabs.com/easysearch
收起阅读 »作者:杨帆,极限科技(INFINI Labs)高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主,拥有十余年金融行业服务工作经验,熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作,服务国内私有化部署的客户。

INFINI Labs 产品更新 | Coco AI – 增强 AI 搜索、API 管理与性能优化等
INFINI Labs 产品更新发布!此次更新涵盖 Coco AI 、Easysearch 等产品多项重要升级,重点提升 AI 搜索能力、易用性及企业级优化。
- Coco AI v0.2 作为 开源、跨平台的 AI 搜索工具,新增 APP 自动更新提示、API Token 管理、文档处理优化 等功能。
- INFINI Easysearch v1.11.1 集成 AI 向量搜索,优化查询聚合能力。
- INFINI Console、Gateway、Agent、Loadgen、Framework 关键问题修复,优化 WebSocket 处理与整体用户体验。
- Coco AI Server 增强 WebSocket 会话处理、支持 RAG 会话和动态配置,并新增图形化管理界面。
Coco AI v0.2
Coco AI 是一个完全开源、跨平台的统一 AI 搜索与效率工具,能够连接并搜索多种数据源,包括应用程序、文件、谷歌网盘、Notion、语雀、Hugo 等本地与云端数据。通过接入 DeepSeek 等大模型,Coco AI 实现了智能化的个人知识库管理,注重隐私,支持私有部署,帮助用户快速、智能地访问信息。
Coco AI 本次详细更新记录如下:
Coco AI 客户端 v0.2.1
功能更新
- 支持 APP 应用内更新提示并可自动更新
问题修复
- 修复融合搜索包含已禁用服务器的问题
- 修复版本类型不正确:应为字符串而不是 u32
- 修复聊天推送结束的判断类型不准确问题
优化改进
- 重构了聊天组件
- 添加服务链接展示
- 优化了聊天滚动效果和聊天数据渲染效果
- 设置聊天窗口最小宽度 & 移除输入框背景
- 移除废弃的选中功能 & 添加选择隐藏 APP 功能
- Websocket 超时增加到 2 分钟
Coco AI 服务端 v0.2.2
功能更新
- 新增图形化管理界面
- 新增数据源下文档创建 API
- 新增文件上传相关 API
- 新增 API TOKEN 管理相关 API
- 数据源同步支持动态配置时间间隔
- 支持动态更新服务端设置
- 支持动态更新大模型相关设置
- 新增 RAG 聊天会话处理
- 新增联网搜索能力
- 支持对接 Deepseek 大模型
- 新增文档预处理 Processor
问题修复
- 修复 Google Drive Connector 缺少文件报错
优化改进
- 优化聊天会话功能
- 优化 Websocket 会话管理
- 优化登录退出接口
- 保存 Notion 其它内容到 Payload 字段
- 完善后台任务退出机制
- 优化默认索引模版和查询模版
INFINI Easysearch v1.11.1
INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
Easysearch 本次更新如下:
功能更新
- 新增 AI 模块,集成 Ollama embedding API,支持文本向量化
问题修复
- 修复 DateRange 聚合在 Rollup 查询中无法正确合并的问题
优化改进
针对用户使用体验进行了多项改进,包括:
- 弃用 KNN 模块中的 index.knn 配置项,(此配置项和其他功能经常发生冲突) 简化配置逻辑,该配置项将在后续版本中移除
- 将 KNN 搜索功能从插件形式集成为内置功能,无需额外安装即可使用
- 将跨集群复制(CCR)功能从插件形式集成为内置功能,开箱即用
- 优化索引配置更新验证:增加非动态配置项的值比对,避免误报
INFINI Console v1.29.1
INFINI Console 是一款开源的非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管, 企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。
Console 在线体验:
http://demo.infini.cloud (用户名/密码:readonly/readonly)。
Console 本次更新如下:
问题修复
- 修复 agentless 模式下计算索引级别实时 QPS 不准确的问题
INFINI Gateway v1.29.1
INFINI Gateway 是一个开源的面向搜索场景的高性能数据网关,所有请求都经过网关处理后再转发到后端的搜索业务集群。基于 INFINI Gateway 可以实现索引级别的限速限流、常见查询的缓存加速、查询请求的审计、查询结果的动态修改等等。
Gateway 本次更新如下:
优化改进
- 同步更新 Framework v1.1.4 优化了一些已知问题
INFINI Agent v1.29.1
INFINI Agent 负责采集和上传 Elasticsearch, Easysearch, Opensearch 集群的日志和指标信息,通过 INFINI Console 管理,支持主流操作系统和平台,安装包轻量且无任何外部依赖,可以快速方便地安装。
Agent 本次更新如下:
优化改进
- 同步更新 Framework v1.1.4 优化了一些已知问题
INFINI Loadgen v1.29.1
INFINI Loadgen 是一款开源的专为 Easysearch、Elasticsearch、OpenSearch 设计的轻量级性能测试工具。
Loadgen 本次更新如下:
优化改进
- 同步更新 Framework v1.1.4 优化了一些已知问题
INFINI Framework v1.1.4
INFINI Framework 是 INFINI Labs 基于 Golang 的产品的核心基础,已开源。该框架以开发者为中心设计,简化了构建高性能、可扩展且可靠的应用程序的过程。
Framework 本次更新如下:
功能更新
- 添加配置选项,以在 WebSocket 连接期间禁用回显消息
- 允许在 WebSocket 连接/断开时注册回调函数
- 为 API 添加可选的登录验证配置
优化改进
- 停止任务后取消任务
- 回调发生错误时关闭 WebSocket 连接
更多详情请查看以下详细的 Release Notes 或联系我们的技术支持团队!
期待反馈
欢迎下载体验使用,如果您在使用过程中遇到如何疑问或者问题,欢迎前往 INFINI Labs Github(https://github.com/infinilabs) 中的对应项目中提交 Feature Request 或提交 Bug。
下载地址: https://infinilabs.cn/download
邮件:hello@infini.ltd
电话:(+86) 400-139-9200
Discord:https://discord.gg/4tKTMkkvVX
也欢迎大家微信扫码添加小助手(INFINI-Labs),加入用户群一起讨论交流。
关于极限科技(INFINI Labs)
极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
INFINI Labs 产品更新发布!此次更新涵盖 Coco AI 、Easysearch 等产品多项重要升级,重点提升 AI 搜索能力、易用性及企业级优化。
- Coco AI v0.2 作为 开源、跨平台的 AI 搜索工具,新增 APP 自动更新提示、API Token 管理、文档处理优化 等功能。
- INFINI Easysearch v1.11.1 集成 AI 向量搜索,优化查询聚合能力。
- INFINI Console、Gateway、Agent、Loadgen、Framework 关键问题修复,优化 WebSocket 处理与整体用户体验。
- Coco AI Server 增强 WebSocket 会话处理、支持 RAG 会话和动态配置,并新增图形化管理界面。
Coco AI v0.2
Coco AI 是一个完全开源、跨平台的统一 AI 搜索与效率工具,能够连接并搜索多种数据源,包括应用程序、文件、谷歌网盘、Notion、语雀、Hugo 等本地与云端数据。通过接入 DeepSeek 等大模型,Coco AI 实现了智能化的个人知识库管理,注重隐私,支持私有部署,帮助用户快速、智能地访问信息。
Coco AI 本次详细更新记录如下:
Coco AI 客户端 v0.2.1
功能更新
- 支持 APP 应用内更新提示并可自动更新
问题修复
- 修复融合搜索包含已禁用服务器的问题
- 修复版本类型不正确:应为字符串而不是 u32
- 修复聊天推送结束的判断类型不准确问题
优化改进
- 重构了聊天组件
- 添加服务链接展示
- 优化了聊天滚动效果和聊天数据渲染效果
- 设置聊天窗口最小宽度 & 移除输入框背景
- 移除废弃的选中功能 & 添加选择隐藏 APP 功能
- Websocket 超时增加到 2 分钟
Coco AI 服务端 v0.2.2
功能更新
- 新增图形化管理界面
- 新增数据源下文档创建 API
- 新增文件上传相关 API
- 新增 API TOKEN 管理相关 API
- 数据源同步支持动态配置时间间隔
- 支持动态更新服务端设置
- 支持动态更新大模型相关设置
- 新增 RAG 聊天会话处理
- 新增联网搜索能力
- 支持对接 Deepseek 大模型
- 新增文档预处理 Processor
问题修复
- 修复 Google Drive Connector 缺少文件报错
优化改进
- 优化聊天会话功能
- 优化 Websocket 会话管理
- 优化登录退出接口
- 保存 Notion 其它内容到 Payload 字段
- 完善后台任务退出机制
- 优化默认索引模版和查询模版
INFINI Easysearch v1.11.1
INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
Easysearch 本次更新如下:
功能更新
- 新增 AI 模块,集成 Ollama embedding API,支持文本向量化
问题修复
- 修复 DateRange 聚合在 Rollup 查询中无法正确合并的问题
优化改进
针对用户使用体验进行了多项改进,包括:
- 弃用 KNN 模块中的 index.knn 配置项,(此配置项和其他功能经常发生冲突) 简化配置逻辑,该配置项将在后续版本中移除
- 将 KNN 搜索功能从插件形式集成为内置功能,无需额外安装即可使用
- 将跨集群复制(CCR)功能从插件形式集成为内置功能,开箱即用
- 优化索引配置更新验证:增加非动态配置项的值比对,避免误报
INFINI Console v1.29.1
INFINI Console 是一款开源的非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管, 企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。
Console 在线体验:
http://demo.infini.cloud (用户名/密码:readonly/readonly)。
Console 本次更新如下:
问题修复
- 修复 agentless 模式下计算索引级别实时 QPS 不准确的问题
INFINI Gateway v1.29.1
INFINI Gateway 是一个开源的面向搜索场景的高性能数据网关,所有请求都经过网关处理后再转发到后端的搜索业务集群。基于 INFINI Gateway 可以实现索引级别的限速限流、常见查询的缓存加速、查询请求的审计、查询结果的动态修改等等。
Gateway 本次更新如下:
优化改进
- 同步更新 Framework v1.1.4 优化了一些已知问题
INFINI Agent v1.29.1
INFINI Agent 负责采集和上传 Elasticsearch, Easysearch, Opensearch 集群的日志和指标信息,通过 INFINI Console 管理,支持主流操作系统和平台,安装包轻量且无任何外部依赖,可以快速方便地安装。
Agent 本次更新如下:
优化改进
- 同步更新 Framework v1.1.4 优化了一些已知问题
INFINI Loadgen v1.29.1
INFINI Loadgen 是一款开源的专为 Easysearch、Elasticsearch、OpenSearch 设计的轻量级性能测试工具。
Loadgen 本次更新如下:
优化改进
- 同步更新 Framework v1.1.4 优化了一些已知问题
INFINI Framework v1.1.4
INFINI Framework 是 INFINI Labs 基于 Golang 的产品的核心基础,已开源。该框架以开发者为中心设计,简化了构建高性能、可扩展且可靠的应用程序的过程。
Framework 本次更新如下:
功能更新
- 添加配置选项,以在 WebSocket 连接期间禁用回显消息
- 允许在 WebSocket 连接/断开时注册回调函数
- 为 API 添加可选的登录验证配置
优化改进
- 停止任务后取消任务
- 回调发生错误时关闭 WebSocket 连接
更多详情请查看以下详细的 Release Notes 或联系我们的技术支持团队!
期待反馈
欢迎下载体验使用,如果您在使用过程中遇到如何疑问或者问题,欢迎前往 INFINI Labs Github(https://github.com/infinilabs) 中的对应项目中提交 Feature Request 或提交 Bug。
下载地址: https://infinilabs.cn/download
邮件:hello@infini.ltd
电话:(+86) 400-139-9200
Discord:https://discord.gg/4tKTMkkvVX
也欢迎大家微信扫码添加小助手(INFINI-Labs),加入用户群一起讨论交流。
关于极限科技(INFINI Labs)
极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
收起阅读 »
【搜索客社区日报】第2002期 (2025-03-14)
https://infinilabs.cn/blog/202 ... eway/
2、如何使用 Grafana 连接 Easysearch
https://blog.csdn.net/yangmf20 ... 30605
3、Easysearch 中 PUT 和 POST 更新索引的区别及常见错误解析
https://blog.csdn.net/weixin_3 ... 28940
4、推荐一个自主可控的轻量级平替Elasticsearch的搜索引擎
https://mp.weixin.qq.com/s/h76Xu6C0aMXdcgEk9S05pA
5、【老杨玩搜索】16. Easysearch 向量搜索
https://www.bilibili.com/video/BV12E2JYsEUS
编辑:Fred
更多资讯:http://news.searchkit.cn
https://infinilabs.cn/blog/202 ... eway/
2、如何使用 Grafana 连接 Easysearch
https://blog.csdn.net/yangmf20 ... 30605
3、Easysearch 中 PUT 和 POST 更新索引的区别及常见错误解析
https://blog.csdn.net/weixin_3 ... 28940
4、推荐一个自主可控的轻量级平替Elasticsearch的搜索引擎
https://mp.weixin.qq.com/s/h76Xu6C0aMXdcgEk9S05pA
5、【老杨玩搜索】16. Easysearch 向量搜索
https://www.bilibili.com/video/BV12E2JYsEUS
编辑:Fred
更多资讯:http://news.searchkit.cn 收起阅读 »

【第 8 期】搜索客 Meetup | Elasticsearch 的一些“双刃剑”特性
本次活动由 搜索客社区、极限科技(INFINI Labs) 联合举办,活动邀请到 INFINI Labs 搜索运维专家 金端 来分享 Elasticsearch 中一些典型的“双刃剑”特性,以及如何在实际使用中权衡和应对。欢迎预约直播观看 ~
活动主题:Elasticsearch 的一些“双刃剑”特性
活动时间:2025 年 03 月 26 日 19:00-20:00(周三)
活动形式:微信视频号(极限实验室)直播
报名方式:关注或扫码海报中的二维码进行预约
嘉宾介绍
金端,极限科技(INFINI Labs)搜索运维专家,Elasticsearch 官方认证工程师,搜索客社区日报编辑。在 ES 运维使用方面具有丰富的实战经验。对 ES/lucene 搜索分析方向保持学习和关注。
主题摘要
Elasticsearch 的许多特性确实是一把“双刃剑”,它们在提供强大功能的同时,也带来了潜在的使用瓶颈和运维挑战。分享主要讨论一些典型的“双刃剑”特性,以及如何在实际使用中权衡和应对。
参与有奖
本次直播活动将设有福袋抽奖环节,参与就有机会获得 INFINI Labs 周边纪念品,包括 T 恤、鸭舌帽、咖啡杯、指甲刀套件、精品围巾等等(图片仅供参考,款式、颜色与尺码随机)。
活动交流
本活动设有 Meetup 技术交流群,可添加小助手微信拉群,与更多小伙伴一起学习交流。
Meetup 讲师招募
搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。
讲师报名链接:http://cfp.searchkit.cn
或扫描下方二维码,立刻报名成为讲师!
Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。
我们热切期待您的精彩分享!
往期回顾
- 【第 7 期】搜索客 Meetup | 开源智能搜索与知识库管理,极限科技 Coco AI 产品介绍
- 【第 6 期】搜索客 Meetup | Easysearch 请求限速漫谈
- 【第 5 期】搜索客 Meetup | 最强开源 Elasticsearch 多集群管理工具 INFINI Console 动手实战
- 【第 4 期】搜索客 Meetup | INFINI Pizza 网站 SVG 动画这么炫,我教你啊!
- 【第 3 期】搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 下篇
- 【第 2 期】搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 上篇
- 【第 1 期】搜索客 Meetup | Easysearch 结合大模型实现 RAG
关于 搜索客(SearchKit)社区
搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级,以新的 Slogan:“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等,为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。
社区官网:https://searchkit.cn 。
本次活动由 搜索客社区、极限科技(INFINI Labs) 联合举办,活动邀请到 INFINI Labs 搜索运维专家 金端 来分享 Elasticsearch 中一些典型的“双刃剑”特性,以及如何在实际使用中权衡和应对。欢迎预约直播观看 ~
活动主题:Elasticsearch 的一些“双刃剑”特性
活动时间:2025 年 03 月 26 日 19:00-20:00(周三)
活动形式:微信视频号(极限实验室)直播
报名方式:关注或扫码海报中的二维码进行预约
嘉宾介绍
金端,极限科技(INFINI Labs)搜索运维专家,Elasticsearch 官方认证工程师,搜索客社区日报编辑。在 ES 运维使用方面具有丰富的实战经验。对 ES/lucene 搜索分析方向保持学习和关注。
主题摘要
Elasticsearch 的许多特性确实是一把“双刃剑”,它们在提供强大功能的同时,也带来了潜在的使用瓶颈和运维挑战。分享主要讨论一些典型的“双刃剑”特性,以及如何在实际使用中权衡和应对。
参与有奖
本次直播活动将设有福袋抽奖环节,参与就有机会获得 INFINI Labs 周边纪念品,包括 T 恤、鸭舌帽、咖啡杯、指甲刀套件、精品围巾等等(图片仅供参考,款式、颜色与尺码随机)。
活动交流
本活动设有 Meetup 技术交流群,可添加小助手微信拉群,与更多小伙伴一起学习交流。
Meetup 讲师招募
搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。
讲师报名链接:http://cfp.searchkit.cn
或扫描下方二维码,立刻报名成为讲师!
Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。
我们热切期待您的精彩分享!
往期回顾
- 【第 7 期】搜索客 Meetup | 开源智能搜索与知识库管理,极限科技 Coco AI 产品介绍
- 【第 6 期】搜索客 Meetup | Easysearch 请求限速漫谈
- 【第 5 期】搜索客 Meetup | 最强开源 Elasticsearch 多集群管理工具 INFINI Console 动手实战
- 【第 4 期】搜索客 Meetup | INFINI Pizza 网站 SVG 动画这么炫,我教你啊!
- 【第 3 期】搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 下篇
- 【第 2 期】搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 上篇
- 【第 1 期】搜索客 Meetup | Easysearch 结合大模型实现 RAG
关于 搜索客(SearchKit)社区
搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级,以新的 Slogan:“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等,为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。
社区官网:https://searchkit.cn 。
收起阅读 »
Easysearch 磁盘水位线注意事项
Easyearch 为了防止索引将磁盘空间完全占满,使用磁盘水位线进行磁盘空间控制。具体来说有三条磁盘水位线:low、high、flood。
低水位线
通过参数 cluster.routing.allocation.disk.watermark.low
进行设置,默认值 85%。也可设置成一个具体值,比如:400mb,代表须保留 400mb 空闲磁盘空间,否则就算超水位线。
一旦节点磁盘使用率超过了低水位线,Easysearch 集群不会将分片分配至该节点,但是不影响新建索引的主分片分配到该节点,新建索引的副本分配不能分配到该节点。
如果所有节点都超过高水位线,此时创建新索引会导致集群状态变成 yellow。
高水位线
通过参数 cluster.routing.allocation.disk.watermark.high
进行设置,默认值 90%。也可设置成一个具体值,比如:300mb,代表须保留 300mb 空闲磁盘空间,否则就算超水位线。
一旦节点磁盘使用率超过了高水位线,Easysearch 集群会尝试将分片移动到其他节点,不允许任何分片分配到该节点。
如果所有节点都超过高水位线,此时创建新索引会导致集群状态变成 red。
洪水位线
通过参数 cluster.routing.allocation.disk.watermark.flood_stage
进行设置,默认值 95%。也可设置成一个具体值,比如:200mb,代表须保留 200mb 空闲磁盘空间,否则就算超水位线。
一旦节点磁盘使用率超过了洪水位线,Easysearch 集群会为该节点上的所有索引添加只读锁,包括系统索引。只读锁会阻止新数据写入,当磁盘利用率低于高水位线时,只读锁会自动释放。
针对节点磁盘使用率,我们可以使用 INFINI Console 进行节点磁盘使用率告警,便于我们及时发现问题苗头,提前进行处理。有任何问题,欢迎加我微信沟通。
关于 Easysearch
INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
官网文档:https://infinilabs.cn/docs/latest/easysearch
作者:杨帆,极限科技(INFINI Labs)高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主,拥有十余年金融行业服务工作经验,熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作,服务国内私有化部署的客户。
Easyearch 为了防止索引将磁盘空间完全占满,使用磁盘水位线进行磁盘空间控制。具体来说有三条磁盘水位线:low、high、flood。
低水位线
通过参数 cluster.routing.allocation.disk.watermark.low
进行设置,默认值 85%。也可设置成一个具体值,比如:400mb,代表须保留 400mb 空闲磁盘空间,否则就算超水位线。
一旦节点磁盘使用率超过了低水位线,Easysearch 集群不会将分片分配至该节点,但是不影响新建索引的主分片分配到该节点,新建索引的副本分配不能分配到该节点。
如果所有节点都超过高水位线,此时创建新索引会导致集群状态变成 yellow。
高水位线
通过参数 cluster.routing.allocation.disk.watermark.high
进行设置,默认值 90%。也可设置成一个具体值,比如:300mb,代表须保留 300mb 空闲磁盘空间,否则就算超水位线。
一旦节点磁盘使用率超过了高水位线,Easysearch 集群会尝试将分片移动到其他节点,不允许任何分片分配到该节点。
如果所有节点都超过高水位线,此时创建新索引会导致集群状态变成 red。
洪水位线
通过参数 cluster.routing.allocation.disk.watermark.flood_stage
进行设置,默认值 95%。也可设置成一个具体值,比如:200mb,代表须保留 200mb 空闲磁盘空间,否则就算超水位线。
一旦节点磁盘使用率超过了洪水位线,Easysearch 集群会为该节点上的所有索引添加只读锁,包括系统索引。只读锁会阻止新数据写入,当磁盘利用率低于高水位线时,只读锁会自动释放。
针对节点磁盘使用率,我们可以使用 INFINI Console 进行节点磁盘使用率告警,便于我们及时发现问题苗头,提前进行处理。有任何问题,欢迎加我微信沟通。
关于 Easysearch
INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
官网文档:https://infinilabs.cn/docs/latest/easysearch
收起阅读 »作者:杨帆,极限科技(INFINI Labs)高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主,拥有十余年金融行业服务工作经验,熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作,服务国内私有化部署的客户。

引爆知识革命!Easysearch+携手+DeepSeek+打造下一代智能问答系统
去年我们尝试过使用 Easysearch + 千问 2 大模型打造一个企业内部知识问答系统,今年又有更加给力的大模型出现了--DeepSeek,性能对标 OpenAI o1 正式版。而且 Easysearch 对比去年也有了不少进步,是时候让我们升级下问答系统了。
DeepSeek
2025 年 1 月 20 日,人工智能领域迎来里程碑式突破!深度求索(DeepSeek)正式发布新一代推理大模型 DeepSeek-R1,不仅实现与 OpenAI 最新 o1 正式版的性能对标,更以全栈开放的生态布局引发行业震动。DeepSeek-R1 是首个遵循 MIT License 开源协议的高性能推理模型,完全开源,不限制商用,无需申请,极大地推动了 AI 技术的开放与共享。
下载模型
我们使用 ollama 下载运行 DeepSeek-R1,根据本地资源情况选择一个大小合适的版本:8b。
- 8b 蒸馏模型源自 Llama3.1-8B-Base
- 7b 蒸馏模型源自 Qwen-2.5 系列
这两个可能是个人用户使用最多的选择,大家资源充足的可以都下载下来对比下效果。
由于是升级,我们只需在原有程序基础上替换新版本的 Easysearch 和集成 DeepSeek 即可,Easysearch 升级成新版本 1.10.1,程序框架和 embedding 模型 (mxbai-embed-large:latest) 仍然保持不变。
数据准备
跟上次一样,使用 "INFINI 产品安装手册.PDF" 作为知识内容,通过程序将文档内容切片、转换成向量后写入 Easysearch 存储,然后结合大模型对其中的内容进行提问。
程序调整
程序代码需要调整 LLM 为 deepseek-r1:8b。另外本地主机资源有限,为节约时间,取消上个版本的用户问题改写功能(注释部分)。定义新的 retriever 和 qa_chain 直接将用户问题和 context 信息发送给大模型。
# # 实例化一个大模型工具
from langchain_community.chat_models import ChatOllama
llm = ChatOllama(model="deepseek-r1:8b")
# from langchain.prompts import PromptTemplate
# my_template = PromptTemplate(
# input_variables=["question"],
# template="""You are an AI language model assistant. Your task is
# to generate 3 different versions of the given user
# question in Chinese to retrieve relevant documents from a vector database.
# By generating multiple perspectives on the user question,
# your goal is to help the user overcome some of the limitations
# of distance-based similarity search. Provide these alternative
# questions separated by newlines. Original question: {question}""",
# )
# 实例化一个MultiQueryRetriever
# retriever_from_llm = MultiQueryRetriever.from_llm(
# retriever=docsearch.as_retriever(),
# llm=llm,
# prompt=my_template,
# include_original=True)
retriever = docsearch.as_retriever()
# 实例化一个RetrievalQA链
qa_chain = RetrievalQA.from_chain_type(llm, retriever=retriever)
至此程序修改已经完成,原程序算上注释也不过 100 来行,大家感兴趣的可以去查看原博客。
效果测试
模拟用户提问:网关运行后监听哪个端口。
系统回答如下。
在回答中,可以看到 DeepSeek 的"思考"过程,另外回答结果也非常正确,文档中原文还是用的英语 INFINI Gateway 表示网关。
模拟用户提问:LOGGING_ES_ENDPOINT 有什么用。
系统回答如下。
文档原文内容如下。
好了,我对 DeepSeek 的表现很满意,至此知识问答系统就升级完了。
如有任何问题,请随时联系我,期待与您交流!
关于 Easysearch
INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
官网文档:https://infinilabs.cn/docs/latest/easysearch
作者:杨帆,极限科技(INFINI Labs)高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主,拥有十余年金融行业服务工作经验,熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作,服务国内私有化部署的客户。
去年我们尝试过使用 Easysearch + 千问 2 大模型打造一个企业内部知识问答系统,今年又有更加给力的大模型出现了--DeepSeek,性能对标 OpenAI o1 正式版。而且 Easysearch 对比去年也有了不少进步,是时候让我们升级下问答系统了。
DeepSeek
2025 年 1 月 20 日,人工智能领域迎来里程碑式突破!深度求索(DeepSeek)正式发布新一代推理大模型 DeepSeek-R1,不仅实现与 OpenAI 最新 o1 正式版的性能对标,更以全栈开放的生态布局引发行业震动。DeepSeek-R1 是首个遵循 MIT License 开源协议的高性能推理模型,完全开源,不限制商用,无需申请,极大地推动了 AI 技术的开放与共享。
下载模型
我们使用 ollama 下载运行 DeepSeek-R1,根据本地资源情况选择一个大小合适的版本:8b。
- 8b 蒸馏模型源自 Llama3.1-8B-Base
- 7b 蒸馏模型源自 Qwen-2.5 系列
这两个可能是个人用户使用最多的选择,大家资源充足的可以都下载下来对比下效果。
由于是升级,我们只需在原有程序基础上替换新版本的 Easysearch 和集成 DeepSeek 即可,Easysearch 升级成新版本 1.10.1,程序框架和 embedding 模型 (mxbai-embed-large:latest) 仍然保持不变。
数据准备
跟上次一样,使用 "INFINI 产品安装手册.PDF" 作为知识内容,通过程序将文档内容切片、转换成向量后写入 Easysearch 存储,然后结合大模型对其中的内容进行提问。
程序调整
程序代码需要调整 LLM 为 deepseek-r1:8b。另外本地主机资源有限,为节约时间,取消上个版本的用户问题改写功能(注释部分)。定义新的 retriever 和 qa_chain 直接将用户问题和 context 信息发送给大模型。
# # 实例化一个大模型工具
from langchain_community.chat_models import ChatOllama
llm = ChatOllama(model="deepseek-r1:8b")
# from langchain.prompts import PromptTemplate
# my_template = PromptTemplate(
# input_variables=["question"],
# template="""You are an AI language model assistant. Your task is
# to generate 3 different versions of the given user
# question in Chinese to retrieve relevant documents from a vector database.
# By generating multiple perspectives on the user question,
# your goal is to help the user overcome some of the limitations
# of distance-based similarity search. Provide these alternative
# questions separated by newlines. Original question: {question}""",
# )
# 实例化一个MultiQueryRetriever
# retriever_from_llm = MultiQueryRetriever.from_llm(
# retriever=docsearch.as_retriever(),
# llm=llm,
# prompt=my_template,
# include_original=True)
retriever = docsearch.as_retriever()
# 实例化一个RetrievalQA链
qa_chain = RetrievalQA.from_chain_type(llm, retriever=retriever)
至此程序修改已经完成,原程序算上注释也不过 100 来行,大家感兴趣的可以去查看原博客。
效果测试
模拟用户提问:网关运行后监听哪个端口。
系统回答如下。
在回答中,可以看到 DeepSeek 的"思考"过程,另外回答结果也非常正确,文档中原文还是用的英语 INFINI Gateway 表示网关。
模拟用户提问:LOGGING_ES_ENDPOINT 有什么用。
系统回答如下。
文档原文内容如下。
好了,我对 DeepSeek 的表现很满意,至此知识问答系统就升级完了。
如有任何问题,请随时联系我,期待与您交流!
关于 Easysearch
INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
官网文档:https://infinilabs.cn/docs/latest/easysearch
收起阅读 »作者:杨帆,极限科技(INFINI Labs)高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主,拥有十余年金融行业服务工作经验,熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作,服务国内私有化部署的客户。

【搜索客社区日报】第1999期 (2025-03-10)
https://blog.csdn.net/2301_808 ... 04715
2、活动回顾 - 第7期 搜索客 Meetup 线上直播活动圆满结束,附视频回放
https://elasticsearch.cn/article/15398
3、DeepSeekの食用指南:在腾讯云LKE厨房里,我们把AI炖成了一锅会写彩虹屁的佛跳墙
https://blog.csdn.net/2301_808 ... 10524
4、Elasticsearch 如何实现按特定时间档次和相关度排序的定制查询?
https://mp.weixin.qq.com/s/oboqrfKTvfhJDiTyA_3B_A
5、实测 Manus:DeepSeek 之后,AI 又点了一把火
https://blog.csdn.net/csdnnews ... .5927
编辑:Muse
更多资讯:http://news.searchkit.cn
https://blog.csdn.net/2301_808 ... 04715
2、活动回顾 - 第7期 搜索客 Meetup 线上直播活动圆满结束,附视频回放
https://elasticsearch.cn/article/15398
3、DeepSeekの食用指南:在腾讯云LKE厨房里,我们把AI炖成了一锅会写彩虹屁的佛跳墙
https://blog.csdn.net/2301_808 ... 10524
4、Elasticsearch 如何实现按特定时间档次和相关度排序的定制查询?
https://mp.weixin.qq.com/s/oboqrfKTvfhJDiTyA_3B_A
5、实测 Manus:DeepSeek 之后,AI 又点了一把火
https://blog.csdn.net/csdnnews ... .5927
编辑:Muse
更多资讯:http://news.searchkit.cn 收起阅读 »

【搜索客社区日报】第2001期 (2025-03-12)
https://blog.csdn.net/UbuntuTo ... 76560
2. Elasticsearch:过滤 HNSW 搜索,快速模式
https://blog.csdn.net/UbuntuTo ... 19180
3. 选择正确的AI Agent框架:LangGraph vs CrewAI vs OpenAI Swarm
https://zhuanlan.zhihu.com/p/18555531485
编辑:kin122
更多资讯:http://news.searchkit.cn
https://blog.csdn.net/UbuntuTo ... 76560
2. Elasticsearch:过滤 HNSW 搜索,快速模式
https://blog.csdn.net/UbuntuTo ... 19180
3. 选择正确的AI Agent框架:LangGraph vs CrewAI vs OpenAI Swarm
https://zhuanlan.zhihu.com/p/18555531485
编辑:kin122
更多资讯:http://news.searchkit.cn 收起阅读 »

【搜索客社区日报】第2000期 (2025-03-11)
1. ELK实时监控的最佳实践(需要梯子)
https://medium.com/%40jeromede ... f0469
2. 用Rag释放商业潜能(需要梯子)
https://medium.com/%40anirudhs ... 211b8
3. 拿足球数据集来给大家讲讲ES、AI结合(需要梯子)
https://medium.com/%40rahul.fi ... cb940
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
1. ELK实时监控的最佳实践(需要梯子)
https://medium.com/%40jeromede ... f0469
2. 用Rag释放商业潜能(需要梯子)
https://medium.com/%40anirudhs ... 211b8
3. 拿足球数据集来给大家讲讲ES、AI结合(需要梯子)
https://medium.com/%40rahul.fi ... cb940
编辑:斯蒂文
更多资讯:http://news.searchkit.cn 收起阅读 »

活动回顾 - 第7期 搜索客 Meetup 线上直播活动圆满结束,附 PPT 下载与视频回放
2025 年 03 月 07 日,由搜索客社区和极限科技(INFINI Labs)联合举办的第 7 期线上 Meetup 技术交流直播活动圆满结束。本期 Meetup 直播活动吸引了超过 700+ 技术爱好者观看参与,活动主要介绍了极限科技新推出并正在研发的开源智能搜索产品 Coco AI 的技术特点和应用场景,并探讨了如何通过 AI 等技术提高企业内部协作的效率和智能化程度。
本期 Meetup 活动回顾
本期 Meetup 活动的分享嘉宾是 极限科技(INFINI Labs)创始人和 CEO 曾勇老师(Medcl) ,Medcl 在搜索技术领域有着丰富的经验和深厚的积累,致力于下一代搜索引擎和智能 AI 搜索领域相关技术的研究。他为大家带来了主题为 《开源智能搜索与知识库管理 - Coco AI》 精彩分享。
Medcl 首先介绍了极限科技的成立背景和主要业务。极限科技成立于 2021 年底,致力于为企业提供国产化的搜索工具和产品。其中,Coco AI 是极限科技最近推出的一款开源智能搜索产品,旨在为用户提供更加便捷、高效的搜索体验。
Medcl 详细介绍了 Coco AI 的产品架构和功能特点。Coco AI 采用分布式架构,支持多种数据源连接和异构数据的整合。同时,它还集成了 AI 技术,能够实现智能问答、意图识别等功能,帮助用户更加高效地获取所需信息。
在 Medcl 的演示中,我们看到了 Coco AI 的实际应用效果。通过简单的配置和操作,用户可以轻松地连接各种数据源,并实现快速检索和智能问答。同时,Coco AI 还支持多种操作系统和设备,为用户提供了更加便捷的使用体验。
在活动的互动环节中,观众们积极提问,Medcl 耐心解答了关于 Coco AI 的技术细节和应用场景等问题。下面摘取部分问答:
问 1:Coco AI 的架构图中有提到 Pizza,Pizza 是向量数据库吗?
答:Pizza 是极限科技即将推出的下一代搜索引擎,既包含全文检索的能力,也包含向量检索能力。问 2: Coco AI App 的 windows 版本啥时候开放下载体验?
答:已开放下载,下载地址:https://coco.rs/,欢迎体验和反馈!问 3: 幻觉问题有解决方案吗,试了很多款 RAG 开源项目,还有云服务,都没有特别好的方式
答:大模型幻觉问题可通过多阶段处理和提示词设计优化:先快速识别意图并筛选信息,再提取可靠资料,最后用高精度模型生成答案,耗时较长但准确性高;同时提示模型在依据不足时回答“缺少信息”,避免无意义输出。这种分层处理方式有效减少幻觉问题,提升可靠性。问 4: Coco 怎么做数据源的更新的 🤔
答:Coco AI 的数据源更新方式灵活多样:1.定期更新,通过 Connect 定期按频率更新数据;2.主动推送,支持业务方主动推送数据或结合消息通知,实现部分更新;3.接口支持,提供接口接收推送数据,实时检索更新,适应多种数据场景。问 5: Coco 的数据源是否计划支持飞书云文档?
答:飞书云文档我们本身是有计划的,因为飞书云文档我们也有在用的我们。支持起来的话也很快。
同时,在整个直播过程中,主持人进行了多轮激动人心的抽奖活动,为参会小伙伴带来了额外的惊喜。
最后感谢大家的参与和支持,让我们共同期待下一次 搜索客 Meetup 活动带来更多的精彩内容!
本期 Meetup 的 PPT 下载
本期 PPT 下载的链接:https://searchkit.cn/slides/331
本期 Meetup 视频回放
扫码关注极限实验室视频号查看直播回放,或者扫码关注极限实验室 B 站 账号,可查看本期 Meetup 活动视频。我们也会在视频号、B 站持续更新最新技术视频,欢迎通过点赞、投币,收藏,三连来支持我们。
Meetup 活动讲师招募
搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。
讲师报名链接:http://cfp.searchkit.cn
或扫描下方二维码,立刻报名成为讲师!
Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。
我们热切期待您的精彩分享!
关于 搜索客(SearchKit)社区
搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级,以新的 Slogan:“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等,为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。社区官网:https://searchkit.cn 。
关于极限科技(INFINI Labs)
极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
2025 年 03 月 07 日,由搜索客社区和极限科技(INFINI Labs)联合举办的第 7 期线上 Meetup 技术交流直播活动圆满结束。本期 Meetup 直播活动吸引了超过 700+ 技术爱好者观看参与,活动主要介绍了极限科技新推出并正在研发的开源智能搜索产品 Coco AI 的技术特点和应用场景,并探讨了如何通过 AI 等技术提高企业内部协作的效率和智能化程度。
本期 Meetup 活动回顾
本期 Meetup 活动的分享嘉宾是 极限科技(INFINI Labs)创始人和 CEO 曾勇老师(Medcl) ,Medcl 在搜索技术领域有着丰富的经验和深厚的积累,致力于下一代搜索引擎和智能 AI 搜索领域相关技术的研究。他为大家带来了主题为 《开源智能搜索与知识库管理 - Coco AI》 精彩分享。
Medcl 首先介绍了极限科技的成立背景和主要业务。极限科技成立于 2021 年底,致力于为企业提供国产化的搜索工具和产品。其中,Coco AI 是极限科技最近推出的一款开源智能搜索产品,旨在为用户提供更加便捷、高效的搜索体验。
Medcl 详细介绍了 Coco AI 的产品架构和功能特点。Coco AI 采用分布式架构,支持多种数据源连接和异构数据的整合。同时,它还集成了 AI 技术,能够实现智能问答、意图识别等功能,帮助用户更加高效地获取所需信息。
在 Medcl 的演示中,我们看到了 Coco AI 的实际应用效果。通过简单的配置和操作,用户可以轻松地连接各种数据源,并实现快速检索和智能问答。同时,Coco AI 还支持多种操作系统和设备,为用户提供了更加便捷的使用体验。
在活动的互动环节中,观众们积极提问,Medcl 耐心解答了关于 Coco AI 的技术细节和应用场景等问题。下面摘取部分问答:
问 1:Coco AI 的架构图中有提到 Pizza,Pizza 是向量数据库吗?
答:Pizza 是极限科技即将推出的下一代搜索引擎,既包含全文检索的能力,也包含向量检索能力。问 2: Coco AI App 的 windows 版本啥时候开放下载体验?
答:已开放下载,下载地址:https://coco.rs/,欢迎体验和反馈!问 3: 幻觉问题有解决方案吗,试了很多款 RAG 开源项目,还有云服务,都没有特别好的方式
答:大模型幻觉问题可通过多阶段处理和提示词设计优化:先快速识别意图并筛选信息,再提取可靠资料,最后用高精度模型生成答案,耗时较长但准确性高;同时提示模型在依据不足时回答“缺少信息”,避免无意义输出。这种分层处理方式有效减少幻觉问题,提升可靠性。问 4: Coco 怎么做数据源的更新的 🤔
答:Coco AI 的数据源更新方式灵活多样:1.定期更新,通过 Connect 定期按频率更新数据;2.主动推送,支持业务方主动推送数据或结合消息通知,实现部分更新;3.接口支持,提供接口接收推送数据,实时检索更新,适应多种数据场景。问 5: Coco 的数据源是否计划支持飞书云文档?
答:飞书云文档我们本身是有计划的,因为飞书云文档我们也有在用的我们。支持起来的话也很快。
同时,在整个直播过程中,主持人进行了多轮激动人心的抽奖活动,为参会小伙伴带来了额外的惊喜。
最后感谢大家的参与和支持,让我们共同期待下一次 搜索客 Meetup 活动带来更多的精彩内容!
本期 Meetup 的 PPT 下载
本期 PPT 下载的链接:https://searchkit.cn/slides/331
本期 Meetup 视频回放
扫码关注极限实验室视频号查看直播回放,或者扫码关注极限实验室 B 站 账号,可查看本期 Meetup 活动视频。我们也会在视频号、B 站持续更新最新技术视频,欢迎通过点赞、投币,收藏,三连来支持我们。
Meetup 活动讲师招募
搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。
讲师报名链接:http://cfp.searchkit.cn
或扫描下方二维码,立刻报名成为讲师!
Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。
我们热切期待您的精彩分享!
关于 搜索客(SearchKit)社区
搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级,以新的 Slogan:“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等,为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。社区官网:https://searchkit.cn 。
关于极限科技(INFINI Labs)
极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
收起阅读 »
如何使用 DataX 连接 Easysearch
DataX
DataX 是阿里开源的一款离线数据同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。
本篇主要介绍 DataX 如何将数据写入到 Easysearch,对于各种数据源的连接不会做深入的探讨,感兴趣的小伙伴可以访问 DataX 的 Github 仓库查看详情。
下载与安装
DataX 无需安装,下载后解压即可使用。
系统需求:
- JDK 1.8 及以上
- Python2 或 3
创建任务配置文件
每个数据同步的操作可称为一个任务,任务的配置文件定义了数据源(reader)、数据目的(writer) ,以及任务的设置信息,如并发数、速度控制等。DataX 集成了如此多的数据源,如果靠纯手工编写任务配置显然不现实。官方也出了个命令可以根据指定的数据源和数据目的帮助大家生成任务配置。
python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
测试配置文件
此次演示使用 streamreader 和 elasticsearchwriter 作为数据源和数据目的,任务配置如下:
{
"job": {
"content": [
{
"reader": {
"name": "streamreader",
"parameter": {
"sliceRecordCount": 10000,
"column": [
{
"type": "long",
"value": "10"
},
{
"type": "string",
"value": "hello,你好,世界-DataX"
},
{
"type": "string",
"value": "hello,你好,Easysearch"
}
]
}
},
"writer": {
"name": "elasticsearchwriter",
"parameter": {
"endpoint": "http://localhost:9200",
"accessId": "admin",
"accessKey": "1ef0c661d8562aaa06be",
"index": "yf-test",
"column": [
{ "name": "no", "type": "long" },
{ "name": "content", "type": "keyword" },
{ "name": "content2", "type": "keyword" }
]
}
}
}
],
"setting": {
"speed": {
"channel": 50
}
}
}
}
streamreader 是一个从内存读取数据的插件, 它主要用来快速生成期望的数据并对写入插件进行测试。
我们用 streamreader 构造了 10000 个文档,文档含三个字段,任务启动了 50 个 channel 进行数据发送,结果就是共计发送 50w 个文档。
elasticssearchwriter 指定了 Easysearch 的连接信息:
- endpoint: Easysearch 的地址和端口
- accessId: 用户名
- accessKey: 密码
- index: 写入索引名
- column: 对 reader 发来数据的 schema 定义
- batchsize: 默认 1000
这次我们 Easysearch 开启的 http 服务,因为 DataX 的 elasticsearchwriter 无法跳过证书验证。对于必须使用 https 的场景,可使用 INFINI Gateway 代理 ES 服务,提供 http 通道给离线数据同步专用。
⚠️ 注意:
不同的 reader、writer 对 sliceRecordCount 和 channel 会有不同的行为。
Easysearch
本次测试使用的 Easysearch 版本是 1.9.0,需要注意是 Easysearch 要开启兼容性参数:
elasticsearch.api_compatibility: true
否则创建索引报错退出。(实际索引创建成功了但是 mapping 信息是空的)
运行任务
编辑好任务配置文件后,下一步就是执行任务。
python3 datax.py yf-test.json
写入数据时索引不存在,Datax 根据 schema 定义创建了索引。
OK 任务执行完毕,写入 50w 个文档耗时 10 秒。
如果有其他问题欢迎与我联系。
DataX
DataX 是阿里开源的一款离线数据同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。
本篇主要介绍 DataX 如何将数据写入到 Easysearch,对于各种数据源的连接不会做深入的探讨,感兴趣的小伙伴可以访问 DataX 的 Github 仓库查看详情。
下载与安装
DataX 无需安装,下载后解压即可使用。
系统需求:
- JDK 1.8 及以上
- Python2 或 3
创建任务配置文件
每个数据同步的操作可称为一个任务,任务的配置文件定义了数据源(reader)、数据目的(writer) ,以及任务的设置信息,如并发数、速度控制等。DataX 集成了如此多的数据源,如果靠纯手工编写任务配置显然不现实。官方也出了个命令可以根据指定的数据源和数据目的帮助大家生成任务配置。
python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
测试配置文件
此次演示使用 streamreader 和 elasticsearchwriter 作为数据源和数据目的,任务配置如下:
{
"job": {
"content": [
{
"reader": {
"name": "streamreader",
"parameter": {
"sliceRecordCount": 10000,
"column": [
{
"type": "long",
"value": "10"
},
{
"type": "string",
"value": "hello,你好,世界-DataX"
},
{
"type": "string",
"value": "hello,你好,Easysearch"
}
]
}
},
"writer": {
"name": "elasticsearchwriter",
"parameter": {
"endpoint": "http://localhost:9200",
"accessId": "admin",
"accessKey": "1ef0c661d8562aaa06be",
"index": "yf-test",
"column": [
{ "name": "no", "type": "long" },
{ "name": "content", "type": "keyword" },
{ "name": "content2", "type": "keyword" }
]
}
}
}
],
"setting": {
"speed": {
"channel": 50
}
}
}
}
streamreader 是一个从内存读取数据的插件, 它主要用来快速生成期望的数据并对写入插件进行测试。
我们用 streamreader 构造了 10000 个文档,文档含三个字段,任务启动了 50 个 channel 进行数据发送,结果就是共计发送 50w 个文档。
elasticssearchwriter 指定了 Easysearch 的连接信息:
- endpoint: Easysearch 的地址和端口
- accessId: 用户名
- accessKey: 密码
- index: 写入索引名
- column: 对 reader 发来数据的 schema 定义
- batchsize: 默认 1000
这次我们 Easysearch 开启的 http 服务,因为 DataX 的 elasticsearchwriter 无法跳过证书验证。对于必须使用 https 的场景,可使用 INFINI Gateway 代理 ES 服务,提供 http 通道给离线数据同步专用。
⚠️ 注意:
不同的 reader、writer 对 sliceRecordCount 和 channel 会有不同的行为。
Easysearch
本次测试使用的 Easysearch 版本是 1.9.0,需要注意是 Easysearch 要开启兼容性参数:
elasticsearch.api_compatibility: true
否则创建索引报错退出。(实际索引创建成功了但是 mapping 信息是空的)
运行任务
编辑好任务配置文件后,下一步就是执行任务。
python3 datax.py yf-test.json
写入数据时索引不存在,Datax 根据 schema 定义创建了索引。
OK 任务执行完毕,写入 50w 个文档耗时 10 秒。
如果有其他问题欢迎与我联系。

【搜索客社区日报】第1998期 (2025-03-07)
https://mp.weixin.qq.com/s/eS45qqzXs9WzXmWMurNwvQ
2.实测 Manus:首个真干活 AI,中国造(附50个用例 + 拆解)
https://mp.weixin.qq.com/s/P47F8KE7SPRdUpODcnKKhQ
3.Manus工作原理揭秘:解构下一代AI Agent的多智能体架构
https://mp.weixin.qq.com/s/Hr5Ljp7BMsYA0CqU1YI1CA
4.INFINI Labs 产品更新 | Easysearch 增加异步搜索等新特性
https://infinilabs.cn/blog/2025/release-20250228/
5.Easysearch 节点磁盘不足应对方法
https://infinilabs.cn/blog/202 ... odes/
编辑:Fred
更多资讯:http://news.searchkit.cn
https://mp.weixin.qq.com/s/eS45qqzXs9WzXmWMurNwvQ
2.实测 Manus:首个真干活 AI,中国造(附50个用例 + 拆解)
https://mp.weixin.qq.com/s/P47F8KE7SPRdUpODcnKKhQ
3.Manus工作原理揭秘:解构下一代AI Agent的多智能体架构
https://mp.weixin.qq.com/s/Hr5Ljp7BMsYA0CqU1YI1CA
4.INFINI Labs 产品更新 | Easysearch 增加异步搜索等新特性
https://infinilabs.cn/blog/2025/release-20250228/
5.Easysearch 节点磁盘不足应对方法
https://infinilabs.cn/blog/202 ... odes/
编辑:Fred
更多资讯:http://news.searchkit.cn 收起阅读 »