使用netstat -lntp来看看有侦听在网络某端口的进程。当然,也可以使用 lsof。

INFINI Labs 产品更新 | Coco AI v0.7.0 发布 - 全新的文件搜索体验与全屏化的集成功能

release

INFINI Labs 产品更新发布!此次更新主要包括 Coco AI v0.7.0 新增 macOS Spotlight 和 Windows 文件搜索支持、语音输入功能,以及全屏集成模式;Easysearch v1.14.0 引入完整文本嵌入模型、语义检索 API 和搜索管道功能等,全面提升产品性能和稳定性。

Coco AI v0.7.0

Coco AI 是一款完全开源、跨平台的企业级智能搜索与助手系统,专为现代企业打造。它通过统一搜索入口,连接企业内外部的异构数据源,融合大模型能力,帮助团队高效访问知识,智能决策协作。

Coco AI 本次详细更新记录如下:

Coco AI 客户端 v0.7.0

功能特性 (Features)

  • 文件搜索支持 Spotlight(macOS) (#705)
  • 语音输入支持(搜索模式 & 聊天模式) (#732)
  • 文本转语音现已由 LLM 驱动 (#750)
  • Windows 文件搜索支持 (#762)

问题修复 (Bug Fixes)

  • 文件搜索:优先应用过滤器后再处理 from/size 参数 (#741)
  • 文件搜索:按名称与内容搜索时未匹配文件名问题 (#743)
  • 修复 Windows 平台窗口被移动时自动隐藏的问题 (#748)
  • 修复删除快捷键时未注销扩展热键的问题 (#770)
  • 修复应用索引未遵循搜索范围配置的问题 (#773)
  • 修复子页面缺失分类标题的问题 (#772)
  • 修复快捷 AI 入口显示错误的问题 (#779)
  • 语音播放相关的小问题修复 (#780)
  • 修复 Linux 平台任务栏图标显示异常 (#783)
  • 修复子页面数据不一致问题 (#784)
  • 修复扩展安装状态显示错误 (#789)
  • 增加 HTTP 流请求的超时容忍度,提升稳定性 (#798)
  • 修复回车键行为异常问题 (#794)
  • 修复重命名后选中状态失效的问题 (#800)
  • 修复 Windows 右键菜单中快捷键异常问题 (#804)
  • 修复因 "state() 在 manage() 之前调用" 引起的 panic (#806)
  • 修复多行输入问题 (#808)
  • 修复 Ctrl+K 快捷键无效问题 (#815)
  • 修复窗口配置同步失败问题 (#818)
  • 修复子页面回车键无法使用问题 (#819)
  • 修复 Ubuntu (GNOME) 下打开应用时崩溃问题 (#821)

改进优化 (Improvements)

  • 文件状态检测优先使用 stat(2) (#737)
  • 文件搜索扩展类型重命名为 extension (#738)
  • 创建聊天记录及发送聊天 API (#739)
  • 更多文件类型图标支持 (#740)
  • 替换 meval-rs 依赖,清除编译警告 (#745)
  • Assistant、数据源、MCP Server 接口参数重构 (#746)
  • 扩展代码结构调整 (#747)
  • 升级 applications-rs 依赖版本 (#751)
  • QuickLink/quick_link 重命名为 Quicklink/quicklink (#752)
  • Assistant 样式与参数微调 (#753)
  • 可选字段默认不强制要求填写 (#758)
  • 搜索聊天组件新增 formatUrl、think 数据及图标地址支持 (#765)
  • Coco App HTTP 请求统一添加请求头 (#744)
  • 响应体反序列化前增加状态码判断 (#767)
  • 启动页适配手机屏幕宽度 (#768)
  • 搜索聊天新增语言参数与格式化 URL 参数 (#775)
  • 未登录状态不请求用户接口 (#795)
  • Windows 文件搜索清理查询字符串中的非法字符 (#802)
  • 崩溃日志中展示 backtrace 信息 (#805)

相关截图

Coco AI 服务端 v0.7.0

功能特性 (Features)

  • 重构了映射(mappings)的实现
  • 新增了基于 HTTP 流式传输的聊天 API
  • 新增了文件上传的配置选项
  • 聊天消息中现已支持附件
  • 为调试目的,增加记录大语言模型(LLM)请求的日志
  • 新增 RSS 连接器
  • 支持在初始化时配置模型的默认推理参数
  • 新增本地文件系统(Local FS)连接器
  • 新增 S3 连接器

问题修复(Bug Fixes)

  • 修复了查询参数 "filter" 不生效的问题
  • 修复了列表中分页功能不工作的问题
  • 修复了在没有网络的情况下本地图标无法显示的问题
  • 修复了大语言模型(LLM)提供商列表中状态显示不正确的问题
  • 修复了带附件的聊天 API
  • 防止了在 LLM 意图解析出错时可能出现的空指针异常
  • 修复了删除多个 URL 输入框时功能不正常的问题
  • 修复了启用本地模型提供商后状态未及时更新的问题
  • 确保在 RAG(检索增强生成)处理过程中正确使用数据源
  • 修复了提示词模板选择不正确的问题
  • 防止了当用户取消正在进行的回复时可能导致回复消息丢失的问题
  • 使第一条聊天消息可以被取消

改进优化 (Improvements)

  • 重构了用户 ID 的处理方式
  • 跳过空的流式响应数据块
  • 重构了查询的实现
  • 对更多敏感的搜索结果进行屏蔽处理
  • 重构了附件相关的 API
  • 为智能助理增加了上传设置
  • 重构了 ORM 和安全接口
  • 在附件上传 API 中移除了对 session_id 的检查
  • 为搜索框增加了 formatUrl 功能
  • 为集成页面增加了全屏模式
  • 程序现在会忽略无效的连接器
  • 程序现在会跳过无效的 MCP 服务器
  • 对于内置的智能助理和提供商,隐藏了删除按钮
  • 处理了提示词模板的默认值
  • 如果某个集成功能被禁用,其按钮预览将显示为禁用状态
  • 手动刷新流式输出的第一行数据,以改善响应体验

Easysearch v1.14.0

重大变更(Breaking Changes)

  • AI 模块 从 modules 迁移至 plugins 目录下,方便调用 knn 插件
  • 旧的文本向量化接口 _ai/embed 已不再支持,将在后续版本删除

功能特性 (Features)

  • 插件模块新增完整的文本嵌入模型集成功能,涵盖从数据导入到向量检索的全流程
  • 新增语义检索 API,简化向量搜索使用流程
  • 新增语义检索处理器配置大模型信息
  • 新增搜索管道(Search pipelines),轻松地在 Easysearch 内部处理查询请求和查询结果
  • 多模型集成支持
    • OpenAI 向量模型:直接调用 OpenAI 的嵌入接口(如 text-embedding-3-small)
    • Ollama 本地模型:支持离线环境或私有化部署的向量生成
  • IK 分词器提供 reload API,能够对存量自定义词典进行完整更新
  • IK 分词器能够通过词库索引对默认词库进行自定义添加

改进优化 (Improvements)

  • 增强数据摄取管道(ingest pipeline)
    • 在数据索引阶段支持文本向量化,文档可自动生成向量表示
    • 导入数据时通过 ingest 管道进行向量化时支持单条和批量模式,适配大模型的请求限制场景
  • 更新 Easysearch Docker 初始化文档
  • IK 分词器优化自定义词库加载逻辑,减少内存占用

Console v1.29.8

INFINI Console 是一款开源的非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管,企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。

Console 本次详细更新记录如下:

问题修复(Bug Fixes)

  • 在获取分片级别的分片状态指标时,shard_id 参数未生效的问题
  • 优化了监控图表中坐标轴标签的显示效果
  • 在更改指标级别后,统计数据未刷新的问题
  • 根据响应中的 key 来进行 rollup 检查
  • 因 omitempty JSON 标签导致更新不生效时,改为使用 save 方法

改进优化 (Improvements)

  • 为指标请求添加了自定义的超时错误处理
  • 优化了动态分区逻辑
  • 此版本包含了底层 Framework v1.2.0 的更新,解决了一些常见问题,并增强了整体稳定性和性能。虽然 Console 本身没有直接的变更,但从 Framework 中继承的改进间接地使 Console 受益。

Gateway v1.29.8

INFINI Gateway 是一个开源的面向搜索场景的高性能数据网关,所有请求都经过网关处理后再转发到后端的搜索业务集群。基于 INFINI Gateway 可以实现索引级别的限速限流、常见查询的缓存加速、查询请求的审计、查询结果的动态修改等等。

Gateway 本次更新如下:

改进优化 (Improvements)

  • 此版本包含了底层 Framework v1.2.0 的更新,解决了一些常见问题,并增强了整体稳定性和性能。虽然 Gateway 本身没有直接的变更,但从 Framework 中继承的改进间接地使 Gateway 受益。

Agent v1.29.8

INFINI Agent 负责采集和上传 Elasticsearch, Easysearch, Opensearch 集群的日志和指标信息,通过 INFINI Console 管理,支持主流操作系统和平台,安装包轻量且无任何外部依赖,可以快速方便地安装。

Agent 本次更新如下:

功能特性 (Features)

  • 在 Kubernetes 环境下通过环境变量 http.port 探测 Easysearch 的 HTTP 端口

改进优化 (Improvements)

  • 此版本包含了底层 Framework v1.2.0 的更新,解决了一些常见问题,并增强了整体稳定性和性能。虽然 Agent 本身没有直接的变更,但从 Framework 中继承的改进间接地使 Agent 受益。

Loadgen v1.29.8

INFINI Loadgen 是一款开源的专为 Easysearch、Elasticsearch、OpenSearch 设计的轻量级性能测试工具。

Loadgen 本次更新如下:

改进优化 (Improvements)

  • 此版本包含了底层 Framework v1.2.0 的更新,解决了一些常见问题,并增强了整体稳定性和性能。虽然 Loadgen 本身没有直接的变更,但从 Framework 中继承的改进间接地使 Loadgen 受益。

Framework 1.2.0

INFINI Framework 是 INFINI Labs 基于 Golang 的产品的核心基础,已开源。该框架以开发者为中心设计,简化了构建高性能、可扩展且可靠的应用程序的过程。

Framework 本次更新如下:

功能特性 (Features)

  • ORM 操作钩子 (Hooks):为 ORM(数据访问层)的数据操作新增了钩子(Hooks),允许进行更灵活的二次开发。
  • 新增 Create API:新增了用于创建文档的 _create API 接口,确保文档 ID 的唯一性。
  • URL terms 查询:现在 URL 的查询参数也支持 terms 类型的查询了,可以一次匹配多个值。

问题修复 (Bug Fixes)

  • 修复了通过 HTTP 插件设置的自定义 HTTP 头部信息未被正确应用的问题。
  • 修复了 JSON 解析器的一个问题,现在可以正确处理带引号的、且包含下划线 _ 的 JSON 键(key)。

改进 (Improvements)

  • 查询过滤器优化: 系统现在会自动将多个针对同一字段的 term 过滤器合并为一个更高效的 terms 过滤器,以提升查询性能。
  • 查询接口重构: 对核心的查询接口进行了重构,使其结构更清晰,为未来的功能扩展打下基础。

更多详情请查看以下各产品的 Release Notes 或联系我们的技术支持团队!

期待反馈

欢迎下载体验使用,如果您在使用过程中遇到如何疑问或者问题,欢迎前往 INFINI Labs Github(https://github.com/infinilabs) 中的对应项目中提交 Feature Request 或提交 Bug。

下载地址: https://infinilabs.cn/download

邮件hello@infini.ltd

电话(+86) 400-139-9200

Discordhttps://discord.gg/4tKTMkkvVX

也欢迎大家微信扫码添加小助手(INFINI-Labs),加入用户群一起讨论交流。

关于极限科技(INFINI Labs)

INFINI Labs

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

官网:https://infinilabs.cn

继续阅读 »

release

INFINI Labs 产品更新发布!此次更新主要包括 Coco AI v0.7.0 新增 macOS Spotlight 和 Windows 文件搜索支持、语音输入功能,以及全屏集成模式;Easysearch v1.14.0 引入完整文本嵌入模型、语义检索 API 和搜索管道功能等,全面提升产品性能和稳定性。

Coco AI v0.7.0

Coco AI 是一款完全开源、跨平台的企业级智能搜索与助手系统,专为现代企业打造。它通过统一搜索入口,连接企业内外部的异构数据源,融合大模型能力,帮助团队高效访问知识,智能决策协作。

Coco AI 本次详细更新记录如下:

Coco AI 客户端 v0.7.0

功能特性 (Features)

  • 文件搜索支持 Spotlight(macOS) (#705)
  • 语音输入支持(搜索模式 & 聊天模式) (#732)
  • 文本转语音现已由 LLM 驱动 (#750)
  • Windows 文件搜索支持 (#762)

问题修复 (Bug Fixes)

  • 文件搜索:优先应用过滤器后再处理 from/size 参数 (#741)
  • 文件搜索:按名称与内容搜索时未匹配文件名问题 (#743)
  • 修复 Windows 平台窗口被移动时自动隐藏的问题 (#748)
  • 修复删除快捷键时未注销扩展热键的问题 (#770)
  • 修复应用索引未遵循搜索范围配置的问题 (#773)
  • 修复子页面缺失分类标题的问题 (#772)
  • 修复快捷 AI 入口显示错误的问题 (#779)
  • 语音播放相关的小问题修复 (#780)
  • 修复 Linux 平台任务栏图标显示异常 (#783)
  • 修复子页面数据不一致问题 (#784)
  • 修复扩展安装状态显示错误 (#789)
  • 增加 HTTP 流请求的超时容忍度,提升稳定性 (#798)
  • 修复回车键行为异常问题 (#794)
  • 修复重命名后选中状态失效的问题 (#800)
  • 修复 Windows 右键菜单中快捷键异常问题 (#804)
  • 修复因 "state() 在 manage() 之前调用" 引起的 panic (#806)
  • 修复多行输入问题 (#808)
  • 修复 Ctrl+K 快捷键无效问题 (#815)
  • 修复窗口配置同步失败问题 (#818)
  • 修复子页面回车键无法使用问题 (#819)
  • 修复 Ubuntu (GNOME) 下打开应用时崩溃问题 (#821)

改进优化 (Improvements)

  • 文件状态检测优先使用 stat(2) (#737)
  • 文件搜索扩展类型重命名为 extension (#738)
  • 创建聊天记录及发送聊天 API (#739)
  • 更多文件类型图标支持 (#740)
  • 替换 meval-rs 依赖,清除编译警告 (#745)
  • Assistant、数据源、MCP Server 接口参数重构 (#746)
  • 扩展代码结构调整 (#747)
  • 升级 applications-rs 依赖版本 (#751)
  • QuickLink/quick_link 重命名为 Quicklink/quicklink (#752)
  • Assistant 样式与参数微调 (#753)
  • 可选字段默认不强制要求填写 (#758)
  • 搜索聊天组件新增 formatUrl、think 数据及图标地址支持 (#765)
  • Coco App HTTP 请求统一添加请求头 (#744)
  • 响应体反序列化前增加状态码判断 (#767)
  • 启动页适配手机屏幕宽度 (#768)
  • 搜索聊天新增语言参数与格式化 URL 参数 (#775)
  • 未登录状态不请求用户接口 (#795)
  • Windows 文件搜索清理查询字符串中的非法字符 (#802)
  • 崩溃日志中展示 backtrace 信息 (#805)

相关截图

Coco AI 服务端 v0.7.0

功能特性 (Features)

  • 重构了映射(mappings)的实现
  • 新增了基于 HTTP 流式传输的聊天 API
  • 新增了文件上传的配置选项
  • 聊天消息中现已支持附件
  • 为调试目的,增加记录大语言模型(LLM)请求的日志
  • 新增 RSS 连接器
  • 支持在初始化时配置模型的默认推理参数
  • 新增本地文件系统(Local FS)连接器
  • 新增 S3 连接器

问题修复(Bug Fixes)

  • 修复了查询参数 "filter" 不生效的问题
  • 修复了列表中分页功能不工作的问题
  • 修复了在没有网络的情况下本地图标无法显示的问题
  • 修复了大语言模型(LLM)提供商列表中状态显示不正确的问题
  • 修复了带附件的聊天 API
  • 防止了在 LLM 意图解析出错时可能出现的空指针异常
  • 修复了删除多个 URL 输入框时功能不正常的问题
  • 修复了启用本地模型提供商后状态未及时更新的问题
  • 确保在 RAG(检索增强生成)处理过程中正确使用数据源
  • 修复了提示词模板选择不正确的问题
  • 防止了当用户取消正在进行的回复时可能导致回复消息丢失的问题
  • 使第一条聊天消息可以被取消

改进优化 (Improvements)

  • 重构了用户 ID 的处理方式
  • 跳过空的流式响应数据块
  • 重构了查询的实现
  • 对更多敏感的搜索结果进行屏蔽处理
  • 重构了附件相关的 API
  • 为智能助理增加了上传设置
  • 重构了 ORM 和安全接口
  • 在附件上传 API 中移除了对 session_id 的检查
  • 为搜索框增加了 formatUrl 功能
  • 为集成页面增加了全屏模式
  • 程序现在会忽略无效的连接器
  • 程序现在会跳过无效的 MCP 服务器
  • 对于内置的智能助理和提供商,隐藏了删除按钮
  • 处理了提示词模板的默认值
  • 如果某个集成功能被禁用,其按钮预览将显示为禁用状态
  • 手动刷新流式输出的第一行数据,以改善响应体验

Easysearch v1.14.0

重大变更(Breaking Changes)

  • AI 模块 从 modules 迁移至 plugins 目录下,方便调用 knn 插件
  • 旧的文本向量化接口 _ai/embed 已不再支持,将在后续版本删除

功能特性 (Features)

  • 插件模块新增完整的文本嵌入模型集成功能,涵盖从数据导入到向量检索的全流程
  • 新增语义检索 API,简化向量搜索使用流程
  • 新增语义检索处理器配置大模型信息
  • 新增搜索管道(Search pipelines),轻松地在 Easysearch 内部处理查询请求和查询结果
  • 多模型集成支持
    • OpenAI 向量模型:直接调用 OpenAI 的嵌入接口(如 text-embedding-3-small)
    • Ollama 本地模型:支持离线环境或私有化部署的向量生成
  • IK 分词器提供 reload API,能够对存量自定义词典进行完整更新
  • IK 分词器能够通过词库索引对默认词库进行自定义添加

改进优化 (Improvements)

  • 增强数据摄取管道(ingest pipeline)
    • 在数据索引阶段支持文本向量化,文档可自动生成向量表示
    • 导入数据时通过 ingest 管道进行向量化时支持单条和批量模式,适配大模型的请求限制场景
  • 更新 Easysearch Docker 初始化文档
  • IK 分词器优化自定义词库加载逻辑,减少内存占用

Console v1.29.8

INFINI Console 是一款开源的非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管,企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。

Console 本次详细更新记录如下:

问题修复(Bug Fixes)

  • 在获取分片级别的分片状态指标时,shard_id 参数未生效的问题
  • 优化了监控图表中坐标轴标签的显示效果
  • 在更改指标级别后,统计数据未刷新的问题
  • 根据响应中的 key 来进行 rollup 检查
  • 因 omitempty JSON 标签导致更新不生效时,改为使用 save 方法

改进优化 (Improvements)

  • 为指标请求添加了自定义的超时错误处理
  • 优化了动态分区逻辑
  • 此版本包含了底层 Framework v1.2.0 的更新,解决了一些常见问题,并增强了整体稳定性和性能。虽然 Console 本身没有直接的变更,但从 Framework 中继承的改进间接地使 Console 受益。

Gateway v1.29.8

INFINI Gateway 是一个开源的面向搜索场景的高性能数据网关,所有请求都经过网关处理后再转发到后端的搜索业务集群。基于 INFINI Gateway 可以实现索引级别的限速限流、常见查询的缓存加速、查询请求的审计、查询结果的动态修改等等。

Gateway 本次更新如下:

改进优化 (Improvements)

  • 此版本包含了底层 Framework v1.2.0 的更新,解决了一些常见问题,并增强了整体稳定性和性能。虽然 Gateway 本身没有直接的变更,但从 Framework 中继承的改进间接地使 Gateway 受益。

Agent v1.29.8

INFINI Agent 负责采集和上传 Elasticsearch, Easysearch, Opensearch 集群的日志和指标信息,通过 INFINI Console 管理,支持主流操作系统和平台,安装包轻量且无任何外部依赖,可以快速方便地安装。

Agent 本次更新如下:

功能特性 (Features)

  • 在 Kubernetes 环境下通过环境变量 http.port 探测 Easysearch 的 HTTP 端口

改进优化 (Improvements)

  • 此版本包含了底层 Framework v1.2.0 的更新,解决了一些常见问题,并增强了整体稳定性和性能。虽然 Agent 本身没有直接的变更,但从 Framework 中继承的改进间接地使 Agent 受益。

Loadgen v1.29.8

INFINI Loadgen 是一款开源的专为 Easysearch、Elasticsearch、OpenSearch 设计的轻量级性能测试工具。

Loadgen 本次更新如下:

改进优化 (Improvements)

  • 此版本包含了底层 Framework v1.2.0 的更新,解决了一些常见问题,并增强了整体稳定性和性能。虽然 Loadgen 本身没有直接的变更,但从 Framework 中继承的改进间接地使 Loadgen 受益。

Framework 1.2.0

INFINI Framework 是 INFINI Labs 基于 Golang 的产品的核心基础,已开源。该框架以开发者为中心设计,简化了构建高性能、可扩展且可靠的应用程序的过程。

Framework 本次更新如下:

功能特性 (Features)

  • ORM 操作钩子 (Hooks):为 ORM(数据访问层)的数据操作新增了钩子(Hooks),允许进行更灵活的二次开发。
  • 新增 Create API:新增了用于创建文档的 _create API 接口,确保文档 ID 的唯一性。
  • URL terms 查询:现在 URL 的查询参数也支持 terms 类型的查询了,可以一次匹配多个值。

问题修复 (Bug Fixes)

  • 修复了通过 HTTP 插件设置的自定义 HTTP 头部信息未被正确应用的问题。
  • 修复了 JSON 解析器的一个问题,现在可以正确处理带引号的、且包含下划线 _ 的 JSON 键(key)。

改进 (Improvements)

  • 查询过滤器优化: 系统现在会自动将多个针对同一字段的 term 过滤器合并为一个更高效的 terms 过滤器,以提升查询性能。
  • 查询接口重构: 对核心的查询接口进行了重构,使其结构更清晰,为未来的功能扩展打下基础。

更多详情请查看以下各产品的 Release Notes 或联系我们的技术支持团队!

期待反馈

欢迎下载体验使用,如果您在使用过程中遇到如何疑问或者问题,欢迎前往 INFINI Labs Github(https://github.com/infinilabs) 中的对应项目中提交 Feature Request 或提交 Bug。

下载地址: https://infinilabs.cn/download

邮件hello@infini.ltd

电话(+86) 400-139-9200

Discordhttps://discord.gg/4tKTMkkvVX

也欢迎大家微信扫码添加小助手(INFINI-Labs),加入用户群一起讨论交流。

关于极限科技(INFINI Labs)

INFINI Labs

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

官网:https://infinilabs.cn

收起阅读 »

IK 字段级别词典升级:IK reload API

之前介绍 IK 字段级别字典 使用的时候,对于字典的更新只是支持词典库的新增,并不支持对存量词典库的修改或者删除。经过这段时间的开发,已经可以兼容词典库的更新,主要通过 IK reload API 来实现。

IK reload API

IK reload API 通过对词典库的全量重新加载来实现词典库的更新或者删除。用户可以通过下面的命令实现:

# 测试索引准备

PUT my-index-000001
{
  "settings": {
    "number_of_shards": 3,
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type": "custom",
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {

          "type": "ik_smart",
          "custom_dict_enable": true,
          "load_default_dicts":false, # 这里不包含默认词库
          "lowcase_enable": true,
          "dict_key": "test_dic"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "test_ik": {
        "type": "text",
        "analyzer": "my_custom_analyzer"
      }
    }
  }
}

# 原来词库分词效果,只预置了分词“自强不息”
GET my-index-000001/_analyze
{
  "analyzer": "my_custom_analyzer",
  "text":"自强不息,杨树林"
}

{
  "tokens": [
    {
      "token": "自强不息",
      "start_offset": 0,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "杨",
      "start_offset": 5,
      "end_offset": 6,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "树",
      "start_offset": 6,
      "end_offset": 7,
      "type": "CN_CHAR",
      "position": 2
    },
    {
      "token": "林",
      "start_offset": 7,
      "end_offset": 8,
      "type": "CN_CHAR",
      "position": 3
    }
  ]
}

# 更新词库
POST .analysis_ik/_doc
{
  "dict_key": "test_dic",
  "dict_type": "main_dicts",
  "dict_content":"杨树林"
}
# 删除词库,词库文档的id为coayoJcBFHNnLYAKfTML
DELETE .analysis_ik/_doc/coayoJcBFHNnLYAKfTML?refresh=true

# 重载词库
POST _ik/_reload
{}

# 更新后的词库效果
GET my-index-000001/_analyze
{
  "analyzer": "my_custom_analyzer",
  "text":"自强不息,杨树林"
}

{
  "tokens": [
    {
      "token": "自",
      "start_offset": 0,
      "end_offset": 1,
      "type": "CN_CHAR",
      "position": 0
    },
    {
      "token": "强",
      "start_offset": 1,
      "end_offset": 2,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "不",
      "start_offset": 2,
      "end_offset": 3,
      "type": "CN_CHAR",
      "position": 2
    },
    {
      "token": "息",
      "start_offset": 3,
      "end_offset": 4,
      "type": "CN_CHAR",
      "position": 3
    },
    {
      "token": "杨树林",
      "start_offset": 5,
      "end_offset": 8,
      "type": "CN_WORD",
      "position": 4
    }
  ]
}

这里是实现索引里全部的词库更新。

也可以实现单独的词典库更新

POST _ik/_reload
{"dict_key":"test_dic”}

# debug 日志
[2025-07-09T15:30:29,439][INFO ][o.e.a.i.ReloadIK         ] [ik-1] 收到重载IK词典的请求,将在所有节点上执行。dict_key: test_dic, dict_index: .analysis_ik
[2025-07-09T15:30:29,439][INFO ][o.e.a.i.a.TransportReloadIKDictionaryAction] [ik-1] 在节点 [R6ESV5h1Q8OZMNoosSDEmg] 上执行词典重载操作,dict_key: test_dic, dict_index: .analysis_ik

这里传入的 dict_key 对应的词库 id。

对于自定义的词库存储索引,也可以指定词库索引的名称,如果不指定则默认使用 .analysis_ik

POST _ik/_reload
{"dict_index":"ik_index"}

# debug 日志
[2025-07-09T15:32:59,196][INFO ][o.e.a.i.a.TransportReloadIKDictionaryAction] [ik-1] 在节点 [R6ESV5h1Q8OZMNoosSDEmg] 上执行词典重载操作,dict_key: null, dict_index: test_ik
[2025-07-09T15:32:59,196][INFO ][o.w.a.d.ReloadDict       ] [ik-1] Reloading all dictionaries

注:

  1. 更新或者删除词库重载后只是对后续写入的文档生效,对已索引的文档无效;
  2. 因为用户无法直接更改 IK 内置的词库(即默认配置路径下的词库文件),因此 reload API 不会影响内置词库的信息。

相关阅读

关于 IK Analysis

IK Analysis 插件集成了 Lucene IK 分析器,并支持自定义词典。它支持 Easysearch\Elasticsearch\OpenSearch 的主要版本。由 INFINI Labs 维护并提供支持。

该插件包含分析器:ik_smart 和 ik_max_word,以及分词器:ik_smart 和 ik_max_word

开源地址:https://github.com/infinilabs/analysis-ik

作者:金多安,极限科技(INFINI Labs)搜索运维专家,Elastic 认证专家,搜索客社区日报责任编辑。一直从事与搜索运维相关的工作,日常会去挖掘 ES / Lucene 方向的搜索技术原理,保持搜索相关技术发展的关注。
原文:https://infinilabs.cn/blog/2025/ik-field-level-dictionarys-2/

继续阅读 »

之前介绍 IK 字段级别字典 使用的时候,对于字典的更新只是支持词典库的新增,并不支持对存量词典库的修改或者删除。经过这段时间的开发,已经可以兼容词典库的更新,主要通过 IK reload API 来实现。

IK reload API

IK reload API 通过对词典库的全量重新加载来实现词典库的更新或者删除。用户可以通过下面的命令实现:

# 测试索引准备

PUT my-index-000001
{
  "settings": {
    "number_of_shards": 3,
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type": "custom",
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {

          "type": "ik_smart",
          "custom_dict_enable": true,
          "load_default_dicts":false, # 这里不包含默认词库
          "lowcase_enable": true,
          "dict_key": "test_dic"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "test_ik": {
        "type": "text",
        "analyzer": "my_custom_analyzer"
      }
    }
  }
}

# 原来词库分词效果,只预置了分词“自强不息”
GET my-index-000001/_analyze
{
  "analyzer": "my_custom_analyzer",
  "text":"自强不息,杨树林"
}

{
  "tokens": [
    {
      "token": "自强不息",
      "start_offset": 0,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "杨",
      "start_offset": 5,
      "end_offset": 6,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "树",
      "start_offset": 6,
      "end_offset": 7,
      "type": "CN_CHAR",
      "position": 2
    },
    {
      "token": "林",
      "start_offset": 7,
      "end_offset": 8,
      "type": "CN_CHAR",
      "position": 3
    }
  ]
}

# 更新词库
POST .analysis_ik/_doc
{
  "dict_key": "test_dic",
  "dict_type": "main_dicts",
  "dict_content":"杨树林"
}
# 删除词库,词库文档的id为coayoJcBFHNnLYAKfTML
DELETE .analysis_ik/_doc/coayoJcBFHNnLYAKfTML?refresh=true

# 重载词库
POST _ik/_reload
{}

# 更新后的词库效果
GET my-index-000001/_analyze
{
  "analyzer": "my_custom_analyzer",
  "text":"自强不息,杨树林"
}

{
  "tokens": [
    {
      "token": "自",
      "start_offset": 0,
      "end_offset": 1,
      "type": "CN_CHAR",
      "position": 0
    },
    {
      "token": "强",
      "start_offset": 1,
      "end_offset": 2,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "不",
      "start_offset": 2,
      "end_offset": 3,
      "type": "CN_CHAR",
      "position": 2
    },
    {
      "token": "息",
      "start_offset": 3,
      "end_offset": 4,
      "type": "CN_CHAR",
      "position": 3
    },
    {
      "token": "杨树林",
      "start_offset": 5,
      "end_offset": 8,
      "type": "CN_WORD",
      "position": 4
    }
  ]
}

这里是实现索引里全部的词库更新。

也可以实现单独的词典库更新

POST _ik/_reload
{"dict_key":"test_dic”}

# debug 日志
[2025-07-09T15:30:29,439][INFO ][o.e.a.i.ReloadIK         ] [ik-1] 收到重载IK词典的请求,将在所有节点上执行。dict_key: test_dic, dict_index: .analysis_ik
[2025-07-09T15:30:29,439][INFO ][o.e.a.i.a.TransportReloadIKDictionaryAction] [ik-1] 在节点 [R6ESV5h1Q8OZMNoosSDEmg] 上执行词典重载操作,dict_key: test_dic, dict_index: .analysis_ik

这里传入的 dict_key 对应的词库 id。

对于自定义的词库存储索引,也可以指定词库索引的名称,如果不指定则默认使用 .analysis_ik

POST _ik/_reload
{"dict_index":"ik_index"}

# debug 日志
[2025-07-09T15:32:59,196][INFO ][o.e.a.i.a.TransportReloadIKDictionaryAction] [ik-1] 在节点 [R6ESV5h1Q8OZMNoosSDEmg] 上执行词典重载操作,dict_key: null, dict_index: test_ik
[2025-07-09T15:32:59,196][INFO ][o.w.a.d.ReloadDict       ] [ik-1] Reloading all dictionaries

注:

  1. 更新或者删除词库重载后只是对后续写入的文档生效,对已索引的文档无效;
  2. 因为用户无法直接更改 IK 内置的词库(即默认配置路径下的词库文件),因此 reload API 不会影响内置词库的信息。

相关阅读

关于 IK Analysis

IK Analysis 插件集成了 Lucene IK 分析器,并支持自定义词典。它支持 Easysearch\Elasticsearch\OpenSearch 的主要版本。由 INFINI Labs 维护并提供支持。

该插件包含分析器:ik_smart 和 ik_max_word,以及分词器:ik_smart 和 ik_max_word

开源地址:https://github.com/infinilabs/analysis-ik

作者:金多安,极限科技(INFINI Labs)搜索运维专家,Elastic 认证专家,搜索客社区日报责任编辑。一直从事与搜索运维相关的工作,日常会去挖掘 ES / Lucene 方向的搜索技术原理,保持搜索相关技术发展的关注。
原文:https://infinilabs.cn/blog/2025/ik-field-level-dictionarys-2/

收起阅读 »

【搜索客社区日报】第2084期 (2025-07-29)


1. 是时候用ES全家把你的nodejs应用管起来了(需要梯子)
https://medium.com/%40mfehmial ... 7eceb

2. 新功能解锁,反向检索(需要梯子)
https://medium.com/%40halilbul ... eb044

3. ES 聚合不准咋个办?(需要梯子)
https://rafayqayyum.medium.com ... 00443

编辑:斯蒂文
更多资讯:http://news.searchkit.cn
继续阅读 »

1. 是时候用ES全家把你的nodejs应用管起来了(需要梯子)
https://medium.com/%40mfehmial ... 7eceb

2. 新功能解锁,反向检索(需要梯子)
https://medium.com/%40halilbul ... eb044

3. ES 聚合不准咋个办?(需要梯子)
https://rafayqayyum.medium.com ... 00443

编辑:斯蒂文
更多资讯:http://news.searchkit.cn 收起阅读 »

Easysearch 集成阿里云与 Ollama Embedding API,构建端到端的语义搜索系统

背景

在当前 AI 与搜索深度融合的时代,语义搜索已成为企业级应用的核心能力之一。作为 Elasticsearch 的国产化替代方案,Easysearch 不仅具备高性能、高可用、弹性伸缩等企业级特性,更通过灵活的插件化架构,支持多种主流 Embedding 模型服务,包括 阿里云通义千问(DashScope)本地化 Ollama 服务,实现对 OpenAI 接口规范的完美兼容。

本文将详细介绍如何在 Easysearch 中集成阿里云和 Ollama 的 Embedding API,构建端到端的语义搜索系统,并提供完整的配置示例与流程图解析。


一、为什么选择 Easysearch?

Easysearch 是由极限科技(INFINI Labs)自主研发的分布式近实时搜索型数据库,具备以下核心优势:

  • ✅ 完全兼容 Elasticsearch 7.x API 及 8.x 常用操作
  • ✅ 原生支持向量检索(kNN)、语义搜索、混合检索
  • ✅ 内置数据摄入管道与搜索管道,支持 AI 模型集成
  • ✅ 支持国产化部署、数据安全可控
  • ✅ 高性能、低延迟、可扩展性强

尤其在 AI 增强搜索场景中,Easysearch 提供了强大的 text_embeddingsemantic_query_enricher 处理器,允许无缝接入外部 Embedding 模型服务。


二、支持的 Embedding 服务

Easysearch 通过标准 OpenAI 兼容接口无缝集成各类第三方 Embedding 模型服务,理论上支持所有符合 OpenAI Embedding API 规范的模型。以下是已验证的典型服务示例:

服务类型 模型示例 接口协议 部署方式 特点
云端 SaaS 阿里云 DashScope OpenAI 兼容 云端 开箱即用,高可用性
OpenAI text-embedding-3 OpenAI 原生 云端
其他兼容 OpenAI 的云服务 OpenAI 兼容 云端
本地部署 Ollama (nomic-embed-text等) 自定义 API 本地/私有化 数据隐私可控
自建开源模型(如 BGE、M3E) OpenAI 兼容 本地/私有化 灵活定制

核心优势:

  1. 广泛兼容性
    支持任意实现 OpenAI Embedding API 格式(/v1/embeddings)的服务,包括:

    • 请求格式:{ "input": "text", "model": "model_name" }
    • 响应格式:{ "data": [{ "embedding": [...] }] }
  2. 即插即用
    仅需配置服务端点的 base_urlapi_key 即可快速接入新模型。

  3. 混合部署
    可同时配置多个云端或本地模型,根据业务需求灵活切换。

三、结合 AI 服务流程图

说明

  • 索引阶段:通过 Ingest Pipeline 调用 Embedding API,将文本转为向量并存储。
  • 搜索阶段:通过 Search Pipeline 动态生成查询向量,执行语义相似度匹配。
  • 所有 API 调用均兼容 OpenAI 接口格式,降低集成成本。

四、集成阿里云 DashScope(通义千问)

阿里云 DashScope 提供高性能文本嵌入模型 text-embedding-v4,支持 256 维向量输出,适用于中文语义理解任务。

1. 创建 Ingest Pipeline(索引时生成向量)

PUT _ingest/pipeline/text-embedding-aliyun
{
  "description": "阿里云用于生成文本嵌入向量的管道",
  "processors": [
    {
      "text_embedding": {
        "url": "https://dashscope.aliyuncs.com/compatible-mode/v1/embeddings",
        "vendor": "openai",
        "api_key": "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
        "text_field": "input_text",
        "vector_field": "text_vector",
        "model_id": "text-embedding-v4",
        "dims": 256,
        "batch_size": 5
      }
    }
  ]
}

2. 创建索引并定义向量字段

PUT /my-index
{
  "mappings": {
    "properties": {
      "input_text": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "text_vector": {
        "type": "knn_dense_float_vector",
        "knn": {
          "dims": 256,
          "model": "lsh",
          "similarity": "cosine",
          "L": 99,
          "k": 1
        }
      }
    }
  }
}

3. 使用 Pipeline 批量写入数据

POST /_bulk?pipeline=text-embedding-aliyun&refresh=wait_for
{ "index": { "_index": "my-index", "_id": "1" } }
{ "input_text": "风急天高猿啸哀,渚清沙白鸟飞回..." }
{ "index": { "_index": "my-index", "_id": "2" } }
{ "input_text": "月落乌啼霜满天,江枫渔火对愁眠..." }
...

4. 配置 Search Pipeline(搜索时动态生成向量)

PUT /_search/pipeline/search_model_aliyun
{
  "request_processors": [
    {
      "semantic_query_enricher": {
        "tag": "tag1",
        "description": "阿里云 search embedding model",
        "url": "https://dashscope.aliyuncs.com/compatible-mode/v1/embeddings",
        "vendor": "openai",
        "api_key": "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
        "default_model_id": "text-embedding-v4",
        "vector_field_model_id": {
          "text_vector": "text-embedding-v4"
        }
      }
    }
  ]
}

5. 设置索引默认搜索管道

PUT /my-index/_settings
{
  "index.search.default_pipeline": "search_model_aliyun"
}

6. 执行语义搜索

GET /my-index/_search
{
  "_source": "input_text",
  "query": {
    "semantic": {
      "text_vector": {
        "query_text": "风急天高猿啸哀,渚清沙白鸟飞回...",
        "candidates": 10,
        "query_strategy": "LSH_COSINE"
      }
    }
  }
}

搜索结果示例:

"hits": [
  {
    "_id": "1",
    "_score": 2.0,
    "_source": { "input_text": "风急天高猿啸哀..." }
  },
  {
    "_id": "4",
    "_score": 1.75,
    "_source": { "input_text": "白日依山尽..." }
  },
  ...
]

结果显示:相同诗句匹配得分最高,其他古诗按语义相似度排序,效果理想。


五、集成本地 Ollama 服务

Ollama 支持在本地运行开源 Embedding 模型(如 nomic-embed-text),适合对数据隐私要求高的场景。

1. 启动 Ollama 服务

ollama serve
ollama pull nomic-embed-text:latest

2. 创建 Ingest Pipeline(使用 Ollama)

PUT _ingest/pipeline/ollama-embedding-pipeline
{
  "description": "Ollama embedding 示例",
  "processors": [
    {
      "text_embedding": {
        "url": "http://localhost:11434/api/embed",
        "vendor": "ollama",
        "text_field": "input_text",
        "vector_field": "text_vector",
        "model_id": "nomic-embed-text:latest"
      }
    }
  ]
}

3. 创建 Search Pipeline(搜索时使用 Ollama)

PUT /_search/pipeline/ollama_model_pipeline
{
  "request_processors": [
    {
      "semantic_query_enricher": {
        "tag": "tag1",
        "description": "Sets the ollama model",
        "url": "http://localhost:11434/api/embed",
        "vendor": "ollama",
        "default_model_id": "nomic-embed-text:latest",
        "vector_field_model_id": {
          "text_vector": "nomic-embed-text:latest"
        }
      }
    }
  ]
}

后续步骤与阿里云一致:创建索引 → 写入数据 → 搜索查询。


六、安全性说明

Easysearch 在处理 API Key 时采取以下安全措施:

  • 🔐 所有 api_key 在返回时自动加密脱敏(如 TfUmLjPg...infinilabs
  • 🔒 支持密钥管理插件(如 Hashicorp Vault 集成)
  • 🛡️ 支持 HTTPS、RBAC、审计日志等企业级安全功能

确保敏感信息不被泄露,满足合规要求。


七、总结

通过 Easysearch 的 Ingest PipelineSearch Pipeline,我们可以轻松集成:

  • ✅ 阿里云 DashScope(云端高性能)
  • ✅ Ollama(本地私有化部署)
  • ✅ 其他支持 OpenAI 接口的 Embedding 服务

无论是追求性能还是数据安全,Easysearch 都能提供灵活、高效的语义搜索解决方案。


八、下一步建议

  • 尝试混合检索:结合关键词匹配与语义搜索
  • 使用 Rerank 模型提升排序精度
  • 部署多节点集群提升吞吐量
  • 接入 INFINI Gateway 实现统一 API 网关管理

参考链接


关于 Easysearch

INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。

官网文档:https://docs.infinilabs.com/easysearch

作者:张磊,极限科技(INFINI Labs)搜索引擎研发负责人,对 Elasticsearch 和 Lucene 源码比较熟悉,目前主要负责公司的 Easysearch 产品的研发以及客户服务工作。
原文:https://infinilabs.cn/blog/2025/Easysearch-Integration-with-Alibaba-CloudOllama-Embedding-API/

继续阅读 »

背景

在当前 AI 与搜索深度融合的时代,语义搜索已成为企业级应用的核心能力之一。作为 Elasticsearch 的国产化替代方案,Easysearch 不仅具备高性能、高可用、弹性伸缩等企业级特性,更通过灵活的插件化架构,支持多种主流 Embedding 模型服务,包括 阿里云通义千问(DashScope)本地化 Ollama 服务,实现对 OpenAI 接口规范的完美兼容。

本文将详细介绍如何在 Easysearch 中集成阿里云和 Ollama 的 Embedding API,构建端到端的语义搜索系统,并提供完整的配置示例与流程图解析。


一、为什么选择 Easysearch?

Easysearch 是由极限科技(INFINI Labs)自主研发的分布式近实时搜索型数据库,具备以下核心优势:

  • ✅ 完全兼容 Elasticsearch 7.x API 及 8.x 常用操作
  • ✅ 原生支持向量检索(kNN)、语义搜索、混合检索
  • ✅ 内置数据摄入管道与搜索管道,支持 AI 模型集成
  • ✅ 支持国产化部署、数据安全可控
  • ✅ 高性能、低延迟、可扩展性强

尤其在 AI 增强搜索场景中,Easysearch 提供了强大的 text_embeddingsemantic_query_enricher 处理器,允许无缝接入外部 Embedding 模型服务。


二、支持的 Embedding 服务

Easysearch 通过标准 OpenAI 兼容接口无缝集成各类第三方 Embedding 模型服务,理论上支持所有符合 OpenAI Embedding API 规范的模型。以下是已验证的典型服务示例:

服务类型 模型示例 接口协议 部署方式 特点
云端 SaaS 阿里云 DashScope OpenAI 兼容 云端 开箱即用,高可用性
OpenAI text-embedding-3 OpenAI 原生 云端
其他兼容 OpenAI 的云服务 OpenAI 兼容 云端
本地部署 Ollama (nomic-embed-text等) 自定义 API 本地/私有化 数据隐私可控
自建开源模型(如 BGE、M3E) OpenAI 兼容 本地/私有化 灵活定制

核心优势:

  1. 广泛兼容性
    支持任意实现 OpenAI Embedding API 格式(/v1/embeddings)的服务,包括:

    • 请求格式:{ "input": "text", "model": "model_name" }
    • 响应格式:{ "data": [{ "embedding": [...] }] }
  2. 即插即用
    仅需配置服务端点的 base_urlapi_key 即可快速接入新模型。

  3. 混合部署
    可同时配置多个云端或本地模型,根据业务需求灵活切换。

三、结合 AI 服务流程图

说明

  • 索引阶段:通过 Ingest Pipeline 调用 Embedding API,将文本转为向量并存储。
  • 搜索阶段:通过 Search Pipeline 动态生成查询向量,执行语义相似度匹配。
  • 所有 API 调用均兼容 OpenAI 接口格式,降低集成成本。

四、集成阿里云 DashScope(通义千问)

阿里云 DashScope 提供高性能文本嵌入模型 text-embedding-v4,支持 256 维向量输出,适用于中文语义理解任务。

1. 创建 Ingest Pipeline(索引时生成向量)

PUT _ingest/pipeline/text-embedding-aliyun
{
  "description": "阿里云用于生成文本嵌入向量的管道",
  "processors": [
    {
      "text_embedding": {
        "url": "https://dashscope.aliyuncs.com/compatible-mode/v1/embeddings",
        "vendor": "openai",
        "api_key": "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
        "text_field": "input_text",
        "vector_field": "text_vector",
        "model_id": "text-embedding-v4",
        "dims": 256,
        "batch_size": 5
      }
    }
  ]
}

2. 创建索引并定义向量字段

PUT /my-index
{
  "mappings": {
    "properties": {
      "input_text": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "text_vector": {
        "type": "knn_dense_float_vector",
        "knn": {
          "dims": 256,
          "model": "lsh",
          "similarity": "cosine",
          "L": 99,
          "k": 1
        }
      }
    }
  }
}

3. 使用 Pipeline 批量写入数据

POST /_bulk?pipeline=text-embedding-aliyun&refresh=wait_for
{ "index": { "_index": "my-index", "_id": "1" } }
{ "input_text": "风急天高猿啸哀,渚清沙白鸟飞回..." }
{ "index": { "_index": "my-index", "_id": "2" } }
{ "input_text": "月落乌啼霜满天,江枫渔火对愁眠..." }
...

4. 配置 Search Pipeline(搜索时动态生成向量)

PUT /_search/pipeline/search_model_aliyun
{
  "request_processors": [
    {
      "semantic_query_enricher": {
        "tag": "tag1",
        "description": "阿里云 search embedding model",
        "url": "https://dashscope.aliyuncs.com/compatible-mode/v1/embeddings",
        "vendor": "openai",
        "api_key": "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
        "default_model_id": "text-embedding-v4",
        "vector_field_model_id": {
          "text_vector": "text-embedding-v4"
        }
      }
    }
  ]
}

5. 设置索引默认搜索管道

PUT /my-index/_settings
{
  "index.search.default_pipeline": "search_model_aliyun"
}

6. 执行语义搜索

GET /my-index/_search
{
  "_source": "input_text",
  "query": {
    "semantic": {
      "text_vector": {
        "query_text": "风急天高猿啸哀,渚清沙白鸟飞回...",
        "candidates": 10,
        "query_strategy": "LSH_COSINE"
      }
    }
  }
}

搜索结果示例:

"hits": [
  {
    "_id": "1",
    "_score": 2.0,
    "_source": { "input_text": "风急天高猿啸哀..." }
  },
  {
    "_id": "4",
    "_score": 1.75,
    "_source": { "input_text": "白日依山尽..." }
  },
  ...
]

结果显示:相同诗句匹配得分最高,其他古诗按语义相似度排序,效果理想。


五、集成本地 Ollama 服务

Ollama 支持在本地运行开源 Embedding 模型(如 nomic-embed-text),适合对数据隐私要求高的场景。

1. 启动 Ollama 服务

ollama serve
ollama pull nomic-embed-text:latest

2. 创建 Ingest Pipeline(使用 Ollama)

PUT _ingest/pipeline/ollama-embedding-pipeline
{
  "description": "Ollama embedding 示例",
  "processors": [
    {
      "text_embedding": {
        "url": "http://localhost:11434/api/embed",
        "vendor": "ollama",
        "text_field": "input_text",
        "vector_field": "text_vector",
        "model_id": "nomic-embed-text:latest"
      }
    }
  ]
}

3. 创建 Search Pipeline(搜索时使用 Ollama)

PUT /_search/pipeline/ollama_model_pipeline
{
  "request_processors": [
    {
      "semantic_query_enricher": {
        "tag": "tag1",
        "description": "Sets the ollama model",
        "url": "http://localhost:11434/api/embed",
        "vendor": "ollama",
        "default_model_id": "nomic-embed-text:latest",
        "vector_field_model_id": {
          "text_vector": "nomic-embed-text:latest"
        }
      }
    }
  ]
}

后续步骤与阿里云一致:创建索引 → 写入数据 → 搜索查询。


六、安全性说明

Easysearch 在处理 API Key 时采取以下安全措施:

  • 🔐 所有 api_key 在返回时自动加密脱敏(如 TfUmLjPg...infinilabs
  • 🔒 支持密钥管理插件(如 Hashicorp Vault 集成)
  • 🛡️ 支持 HTTPS、RBAC、审计日志等企业级安全功能

确保敏感信息不被泄露,满足合规要求。


七、总结

通过 Easysearch 的 Ingest PipelineSearch Pipeline,我们可以轻松集成:

  • ✅ 阿里云 DashScope(云端高性能)
  • ✅ Ollama(本地私有化部署)
  • ✅ 其他支持 OpenAI 接口的 Embedding 服务

无论是追求性能还是数据安全,Easysearch 都能提供灵活、高效的语义搜索解决方案。


八、下一步建议

  • 尝试混合检索:结合关键词匹配与语义搜索
  • 使用 Rerank 模型提升排序精度
  • 部署多节点集群提升吞吐量
  • 接入 INFINI Gateway 实现统一 API 网关管理

参考链接


关于 Easysearch

INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。

官网文档:https://docs.infinilabs.com/easysearch

作者:张磊,极限科技(INFINI Labs)搜索引擎研发负责人,对 Elasticsearch 和 Lucene 源码比较熟悉,目前主要负责公司的 Easysearch 产品的研发以及客户服务工作。
原文:https://infinilabs.cn/blog/2025/Easysearch-Integration-with-Alibaba-CloudOllama-Embedding-API/

收起阅读 »

【搜索客社区日报】第2082期 (2025-07-24)

1.Context Engineering 上下文工程是什么?
https://rlancemartin.github.io ... ring/
2.开源我的 Claude Code 配置:Vibe Coding 的终极工作流
https://mp.weixin.qq.com/s/QlqKEZoXJnxR1upn_U-wSg
3.如何利用pytorch memory snapshot进行显存分析
https://mp.weixin.qq.com/s/lJGkJ5fB62oKQdU8yhjAlA
4.谈谈Agentic AI对Infra的需求
https://mp.weixin.qq.com/s/es2ZIRDTQQ_Z0fifyKzodQ

编辑:Se7en
更多资讯:http://news.searchkit.cn
继续阅读 »
1.Context Engineering 上下文工程是什么?
https://rlancemartin.github.io ... ring/
2.开源我的 Claude Code 配置:Vibe Coding 的终极工作流
https://mp.weixin.qq.com/s/QlqKEZoXJnxR1upn_U-wSg
3.如何利用pytorch memory snapshot进行显存分析
https://mp.weixin.qq.com/s/lJGkJ5fB62oKQdU8yhjAlA
4.谈谈Agentic AI对Infra的需求
https://mp.weixin.qq.com/s/es2ZIRDTQQ_Z0fifyKzodQ

编辑:Se7en
更多资讯:http://news.searchkit.cn 收起阅读 »

【搜索客社区日报】第2081期 (2025-07-23)

1. RAG:Query优化前沿综述:核心方法解读与个人实战启示
https://mp.weixin.qq.com/s/9yfWiDznPc8UMYuheALc-A

2.使用 Maximum Marginal Relevance 实现搜索结果多样化
https://zhuanlan.zhihu.com/p/1928403646300820102

3.归纳了一些最常见的向量搜索误区(搭梯)
https://medium.com/kx-systems/ ... b976d


编辑:kin122 
更多资讯:http://news.searchkit.cn
继续阅读 »
1. RAG:Query优化前沿综述:核心方法解读与个人实战启示
https://mp.weixin.qq.com/s/9yfWiDznPc8UMYuheALc-A

2.使用 Maximum Marginal Relevance 实现搜索结果多样化
https://zhuanlan.zhihu.com/p/1928403646300820102

3.归纳了一些最常见的向量搜索误区(搭梯)
https://medium.com/kx-systems/ ... b976d


编辑:kin122 
更多资讯:http://news.searchkit.cn 收起阅读 »

【搜索客社区日报】第2080期 (2025-07-22)

1. spring里那些搜索接口算是被你用明白了(需要梯子)
https://medium.com/%40Alexande ... 5c46d
2. 来看看老司机是怎么用ES做到devops一把梭的(需要梯子)
https://medium.com/%40valeront ... 452ef
 
3. 又是分片过量这个坏小子拖慢了我的集群!(需要梯子)
https://medium.com/%40ameersoh ... 07582
 
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
 
继续阅读 »
1. spring里那些搜索接口算是被你用明白了(需要梯子)
https://medium.com/%40Alexande ... 5c46d
2. 来看看老司机是怎么用ES做到devops一把梭的(需要梯子)
https://medium.com/%40valeront ... 452ef
 
3. 又是分片过量这个坏小子拖慢了我的集群!(需要梯子)
https://medium.com/%40ameersoh ... 07582
 
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
  收起阅读 »

【搜索客社区日报】第2079期 (2025-07-21)

1、Elasticsearch 重命名索引
https://elasticstack.blog.csdn ... 59222

2、AI 驱动的仪表板:从愿景到 Kibana
https://elasticstack.blog.csdn ... .5502

3、ES|QL(Elasticsearch 查询语言)入门
https://elasticstack.blog.csdn ... 99991

4、Elasticsearch 集群慢写入调优
https://mp.weixin.qq.com/s/wSe3lwGOxERQoM-qfDlmpw

5、逐层推理:单张24G显卡推理Qwen3-14B
https://mp.weixin.qq.com/s/dHLg_aX7hvuna-QI6Rhh-w

编辑:Muse
更多资讯:http://news.searchkit.cn
继续阅读 »
1、Elasticsearch 重命名索引
https://elasticstack.blog.csdn ... 59222

2、AI 驱动的仪表板:从愿景到 Kibana
https://elasticstack.blog.csdn ... .5502

3、ES|QL(Elasticsearch 查询语言)入门
https://elasticstack.blog.csdn ... 99991

4、Elasticsearch 集群慢写入调优
https://mp.weixin.qq.com/s/wSe3lwGOxERQoM-qfDlmpw

5、逐层推理:单张24G显卡推理Qwen3-14B
https://mp.weixin.qq.com/s/dHLg_aX7hvuna-QI6Rhh-w

编辑:Muse
更多资讯:http://news.searchkit.cn 收起阅读 »

TDBC 2025 大会聚焦 AI 与数据库融合,极限科技发布新一代 Coco AI 搜索平台

2025 年 7 月 17 日 在北京召开的 TDBC 2025 可信数据库发展大会·人工智能与数据库融合发展分论坛 上,国内领先的搜索数据库及解决方案提供商 极限科技(INFINI Labs)正式发布其创新产品 —— Coco AI,一款面向企业的 AI 智能搜索与高效协作平台。极限数据(北京)科技有限公司创始人曾勇在《下一代企业搜索与 AI 的融合探索》主题演讲中,深入探讨了企业搜索的未来趋势及 Coco AI 的核心价值。

破解企业数据困境:多平台孤岛与隐私安全挑战

随着企业数据呈爆发式增长,信息分散在本地文件系统、云存储(如 S3)、协作工具(如内网 Wiki、工单系统、 CRM、ERP 等)及代码仓库(如 Gitcode、Gitee 等)等多个平台,员工往往需要频繁切换系统进行检索,效率低下。同时,企业对数据隐私和安全的高标准要求,使得直接使用公有云 AI 工具或上云存储存在潜在风险。此外,企业内部积累的海量知识未能有效转化为生产力,传统知识库管理依赖人工维护,效果有限。

Coco AI 的推出,正是为了帮助企业解决这些痛点,通过统一搜索、AI 增强、隐私优先的设计理念,打造一站式智能搜索中心,提升知识利用效率与协作体验。

Coco AI 核心功能:重新定义企业搜索与协作

  1. 跨平台统一搜索
  • 支持本地文件、云端应用或自研各业务系统及第三方平台的无缝搜索,提供“本地搜”“云端搜”“混合搜”及“多模态搜”(文本、语音、图像、视频)能力,彻底告别数据碎片化。
  1. 无缝 AI 集成
  • 基于语义搜索与生成式 AI 技术,支持快速提取企业内部知识,并接入 OpenAI、DeepSeek 等主流大模型。
  • 相比集中式知识库,采用联邦数据连接方式,降低维护成本。
  • 提供高度可定制的 RAG(检索增强生成)管道,让 AI 回答更精准、更贴合业务需求。
  1. 隐私优先设计
  • 支持自托管部署,数据全程加密,提供企业级权限控制与动态脱敏功能,确保敏感信息不外泄,满足金融、医疗等高合规性行业需求。
  1. 灵活扩展性
  • 通过 MCP 协议、Connector 及 Remote Search Adapter(RSA)对接企业自有数据源,支持 API 和插件扩展,适配多样化业务场景。

轻量级体验,高效团队协作

Coco AI 以“轻量级、无存在感”为设计理念,内置实用工具(如计算器、便签)及团队协作功能,支持快速定位共享资源。其智能助手可在搜索中实时总结结果,提升决策效率。此外,APP 端支持多服务器连接,实现跨域协作而无需集中同步数据,兼顾便利性与安全性。

技术架构与生态兼容

Coco AI Server 基于极限科技的搜索型数据库的 Easysearch 即可运行,支持从单机到 PB 级分布式扩展,并针对中文语义进行了深度优化。其开放生态兼容 MCP 协议、主流大模型及第三方工具,企业可灵活集成现有系统,降低迁移成本。

开源共建,赋能开发者生态

极限科技始终秉持开放合作理念,Coco AI 已正式开源,并邀请全球开发者共同参与生态建设。用户可通过 GitHub/Gitee/GitCode 来获取代码、提交贡献,或加入官方社群获取技术支持。

曾勇表示:“Coco AI 的诞生,不仅是极限科技在搜索与 AI 融合领域的一次重大突破,更是我们对‘让搜索更简单’这一使命的践行。未来,我们将持续优化产品,助力企业释放数据价值,迈向智能化搜索新未来。”

继续阅读 »

2025 年 7 月 17 日 在北京召开的 TDBC 2025 可信数据库发展大会·人工智能与数据库融合发展分论坛 上,国内领先的搜索数据库及解决方案提供商 极限科技(INFINI Labs)正式发布其创新产品 —— Coco AI,一款面向企业的 AI 智能搜索与高效协作平台。极限数据(北京)科技有限公司创始人曾勇在《下一代企业搜索与 AI 的融合探索》主题演讲中,深入探讨了企业搜索的未来趋势及 Coco AI 的核心价值。

破解企业数据困境:多平台孤岛与隐私安全挑战

随着企业数据呈爆发式增长,信息分散在本地文件系统、云存储(如 S3)、协作工具(如内网 Wiki、工单系统、 CRM、ERP 等)及代码仓库(如 Gitcode、Gitee 等)等多个平台,员工往往需要频繁切换系统进行检索,效率低下。同时,企业对数据隐私和安全的高标准要求,使得直接使用公有云 AI 工具或上云存储存在潜在风险。此外,企业内部积累的海量知识未能有效转化为生产力,传统知识库管理依赖人工维护,效果有限。

Coco AI 的推出,正是为了帮助企业解决这些痛点,通过统一搜索、AI 增强、隐私优先的设计理念,打造一站式智能搜索中心,提升知识利用效率与协作体验。

Coco AI 核心功能:重新定义企业搜索与协作

  1. 跨平台统一搜索
  • 支持本地文件、云端应用或自研各业务系统及第三方平台的无缝搜索,提供“本地搜”“云端搜”“混合搜”及“多模态搜”(文本、语音、图像、视频)能力,彻底告别数据碎片化。
  1. 无缝 AI 集成
  • 基于语义搜索与生成式 AI 技术,支持快速提取企业内部知识,并接入 OpenAI、DeepSeek 等主流大模型。
  • 相比集中式知识库,采用联邦数据连接方式,降低维护成本。
  • 提供高度可定制的 RAG(检索增强生成)管道,让 AI 回答更精准、更贴合业务需求。
  1. 隐私优先设计
  • 支持自托管部署,数据全程加密,提供企业级权限控制与动态脱敏功能,确保敏感信息不外泄,满足金融、医疗等高合规性行业需求。
  1. 灵活扩展性
  • 通过 MCP 协议、Connector 及 Remote Search Adapter(RSA)对接企业自有数据源,支持 API 和插件扩展,适配多样化业务场景。

轻量级体验,高效团队协作

Coco AI 以“轻量级、无存在感”为设计理念,内置实用工具(如计算器、便签)及团队协作功能,支持快速定位共享资源。其智能助手可在搜索中实时总结结果,提升决策效率。此外,APP 端支持多服务器连接,实现跨域协作而无需集中同步数据,兼顾便利性与安全性。

技术架构与生态兼容

Coco AI Server 基于极限科技的搜索型数据库的 Easysearch 即可运行,支持从单机到 PB 级分布式扩展,并针对中文语义进行了深度优化。其开放生态兼容 MCP 协议、主流大模型及第三方工具,企业可灵活集成现有系统,降低迁移成本。

开源共建,赋能开发者生态

极限科技始终秉持开放合作理念,Coco AI 已正式开源,并邀请全球开发者共同参与生态建设。用户可通过 GitHub/Gitee/GitCode 来获取代码、提交贡献,或加入官方社群获取技术支持。

曾勇表示:“Coco AI 的诞生,不仅是极限科技在搜索与 AI 融合领域的一次重大突破,更是我们对‘让搜索更简单’这一使命的践行。未来,我们将持续优化产品,助力企业释放数据价值,迈向智能化搜索新未来。”

收起阅读 »

极限科技亮相 TDBC 2025 可信数据库发展大会——联合创始人曾嘉毅分享搜索型数据库生态建设新成果

2025 年 7 月 17 日 在北京召开的 TDBC 2025 可信数据库发展大会·数据库生态及国际化分论坛 上,全球数据库领域专家、学者与企业代表齐聚。极限数据(北京)科技有限公司联合创始人曾嘉毅发表《搜索型数据库生态建设及展望》主题演讲,剖析技术创新与实践,为行业提供高效数据检索与智能应用方案。

破解数据检索挑战,AI 赋能搜索升级

首先,我们需要面对结构化数据。典型处理方式是使用传统关系型数据库。但是,关系型数据库的设计初衷就决定了它面对的挑战:关系型数据库优先保证事务性,其数据分层结构导致查询需要层层下钻,同时传统关系型数据库能够处理的数据规模也是受限的。搜索型数据库针对以上挑战可以实现读写分离、多表聚合查询、数据库加速等。

与此同时,企业数据中大约 85% 为非结构化或半结构化数据,如图片、视频等,传统数据库处理困难。极限科技运用语义解析与 AI 向量化技术,语义解析深入理解数据语义并转化为结构化信息,AI 向量化将其映射到高维空间实现向量化表示,二者结合完成非结构化数据的标签提取与索引构建,提升检索准确性与效率。

针对中文文本,极限科技进行字段化处理研究。中文语法复杂、语义丰富,传统方法难以满足检索需求。公司通过自研算法精准分词与字段提取,结合向量化技术提升中文数据检索效果。同时,融合向量化全量搜索与模糊搜索,前者快速定位相似数据,后者处理用户输入的不准确信息,提高搜索容错性。

平台化建设与工具开源:打造全链路能力

极限科技构建的管控平台功能强大。支持多集群元原生编排和管理,企业可依业务场景和用户需求灵活调整集群资源,同时实现一键升级、备份管理等;提供统一监控、统一身份管理服务,实时监控系统组件与运行状态,及时预警问题。该平台兼容多厂商环境,企业可无缝集成现有系统,降低迁移成本与风险。公司开发的搜索服务网关针对检索服务提供流量分发与链路加速能力,进而实现查询分析、干预等高阶功能。

此外,极限科技积极推动搜索周边工具开源贡献。数据迁移工具 ESM 助力企业快速安全迁移数据至自家搜索型数据库,缩短迁移周期、降低风险;性能压测工具 Loadgen 模拟复杂场景测试系统性能,评估性能瓶颈与承载能力;中文分词工具 IK/Pinyin 支持多种分词模式与自定义词典,满足不同用户需求。开源工具促进技术交流创新,支持行业生态发展。

“Coco” AI 搜索与智能体结合模式:重构搜索体验

Coco AI 采用获得国家专利设计的人机交互体验,将搜索与 AI 进行无缝结合。传统 RAG 存在大模型直接回答搜索问题存在训练成本高、回答不精准问题。 Coco AI 后台灵活,支持为不同类型问题分配专属“小助手”。“小助手”针对特定问题优化配置,精准理解用户意图、提供准确回答,降低训练成本、提升回答精准度与效率。可以快速量身打造企业专属的 AI 智能体工具箱。

Coco AI 结合本地与云端协同搜索技术,连接本地文件、数据库及外部应用系统数据源。用户搜索时,可以同时对本地和外部 Coco Server 引擎同时处理查询请求,然后对结果进行打分与整合去重排序,结合大模型总结分析最终结果,实现意图理解与统一信息获取,打破信息孤岛,提供全面准确高效的搜索服务。

展望未来:AI 搜索与开放生态

极限科技对搜索型数据库未来有清晰规划。下一代 AI 搜索架构将深度融合向量检索与智能体技术。向量检索已发挥重要作用,智能体技术能自主感知、决策与行动。二者融合使 AI 搜索系统更智能理解用户需求,主动提供个性化服务,如依历史记录推荐信息,面对复杂任务自主分解协调资源处理。

在企业数据应用场景上,下一代架构将进一步优化拓展。除传统文档检索、数据查询,还将深入生产、运营、管理等环节,提供全面深入的数据分析与决策支持。如在生产制造中实时分析设备数据、提前发现故障隐患;在市场营销中深度挖掘客户数据、制定精准营销策略。

为推动行业发展,极限科技将持续推进开源战略,通过 GitHub/Gitee/GitCode 等平台共享核心技术代码与文档,与全球开发者紧密合作。吸引更多开发者参与研发创新,共同解决技术难题。同时积极参与行业标准制定推广,促进市场规范化标准化发展,构建开放共享共赢的搜索型数据库生态。

此次分享展示了极限科技的技术实力与创新成果,为行业发展提供新思路方向。相信未来,极限科技将秉持创新、开放、合作理念,推动技术发展应用,为企业数字化转型与行业发展注入新动力。

继续阅读 »

2025 年 7 月 17 日 在北京召开的 TDBC 2025 可信数据库发展大会·数据库生态及国际化分论坛 上,全球数据库领域专家、学者与企业代表齐聚。极限数据(北京)科技有限公司联合创始人曾嘉毅发表《搜索型数据库生态建设及展望》主题演讲,剖析技术创新与实践,为行业提供高效数据检索与智能应用方案。

破解数据检索挑战,AI 赋能搜索升级

首先,我们需要面对结构化数据。典型处理方式是使用传统关系型数据库。但是,关系型数据库的设计初衷就决定了它面对的挑战:关系型数据库优先保证事务性,其数据分层结构导致查询需要层层下钻,同时传统关系型数据库能够处理的数据规模也是受限的。搜索型数据库针对以上挑战可以实现读写分离、多表聚合查询、数据库加速等。

与此同时,企业数据中大约 85% 为非结构化或半结构化数据,如图片、视频等,传统数据库处理困难。极限科技运用语义解析与 AI 向量化技术,语义解析深入理解数据语义并转化为结构化信息,AI 向量化将其映射到高维空间实现向量化表示,二者结合完成非结构化数据的标签提取与索引构建,提升检索准确性与效率。

针对中文文本,极限科技进行字段化处理研究。中文语法复杂、语义丰富,传统方法难以满足检索需求。公司通过自研算法精准分词与字段提取,结合向量化技术提升中文数据检索效果。同时,融合向量化全量搜索与模糊搜索,前者快速定位相似数据,后者处理用户输入的不准确信息,提高搜索容错性。

平台化建设与工具开源:打造全链路能力

极限科技构建的管控平台功能强大。支持多集群元原生编排和管理,企业可依业务场景和用户需求灵活调整集群资源,同时实现一键升级、备份管理等;提供统一监控、统一身份管理服务,实时监控系统组件与运行状态,及时预警问题。该平台兼容多厂商环境,企业可无缝集成现有系统,降低迁移成本与风险。公司开发的搜索服务网关针对检索服务提供流量分发与链路加速能力,进而实现查询分析、干预等高阶功能。

此外,极限科技积极推动搜索周边工具开源贡献。数据迁移工具 ESM 助力企业快速安全迁移数据至自家搜索型数据库,缩短迁移周期、降低风险;性能压测工具 Loadgen 模拟复杂场景测试系统性能,评估性能瓶颈与承载能力;中文分词工具 IK/Pinyin 支持多种分词模式与自定义词典,满足不同用户需求。开源工具促进技术交流创新,支持行业生态发展。

“Coco” AI 搜索与智能体结合模式:重构搜索体验

Coco AI 采用获得国家专利设计的人机交互体验,将搜索与 AI 进行无缝结合。传统 RAG 存在大模型直接回答搜索问题存在训练成本高、回答不精准问题。 Coco AI 后台灵活,支持为不同类型问题分配专属“小助手”。“小助手”针对特定问题优化配置,精准理解用户意图、提供准确回答,降低训练成本、提升回答精准度与效率。可以快速量身打造企业专属的 AI 智能体工具箱。

Coco AI 结合本地与云端协同搜索技术,连接本地文件、数据库及外部应用系统数据源。用户搜索时,可以同时对本地和外部 Coco Server 引擎同时处理查询请求,然后对结果进行打分与整合去重排序,结合大模型总结分析最终结果,实现意图理解与统一信息获取,打破信息孤岛,提供全面准确高效的搜索服务。

展望未来:AI 搜索与开放生态

极限科技对搜索型数据库未来有清晰规划。下一代 AI 搜索架构将深度融合向量检索与智能体技术。向量检索已发挥重要作用,智能体技术能自主感知、决策与行动。二者融合使 AI 搜索系统更智能理解用户需求,主动提供个性化服务,如依历史记录推荐信息,面对复杂任务自主分解协调资源处理。

在企业数据应用场景上,下一代架构将进一步优化拓展。除传统文档检索、数据查询,还将深入生产、运营、管理等环节,提供全面深入的数据分析与决策支持。如在生产制造中实时分析设备数据、提前发现故障隐患;在市场营销中深度挖掘客户数据、制定精准营销策略。

为推动行业发展,极限科技将持续推进开源战略,通过 GitHub/Gitee/GitCode 等平台共享核心技术代码与文档,与全球开发者紧密合作。吸引更多开发者参与研发创新,共同解决技术难题。同时积极参与行业标准制定推广,促进市场规范化标准化发展,构建开放共享共赢的搜索型数据库生态。

此次分享展示了极限科技的技术实力与创新成果,为行业发展提供新思路方向。相信未来,极限科技将秉持创新、开放、合作理念,推动技术发展应用,为企业数字化转型与行业发展注入新动力。

收起阅读 »

【搜索客社区日报】第2078期 (2025-07-18)

1、TDBC 2025 大会聚焦 AI 与数据库融合 极限科技发布新一代 Coco AI 搜索平台
https://my.oschina.net/u/7209245/blog/18684967

2、Coco AI 快速构建本地文档知识库增强检索+智能问答系统
https://mp.weixin.qq.com/s/fcchZQm_FLuW_jhrZVwJlQ

3、一文了解 - Elasticsearch 搜索的底层原理-解析
https://mp.weixin.qq.com/s/06e_iIN43BgKVYJNAnmoLA

4、本地 RAG 实战:用 Easysearch + Ollama SDK 半小时搭建检索增强问答系统
https://mp.weixin.qq.com/s/G4Wk_A7G7QiZIQpjCYJ1kw

5、会 Vibe Coding(氛围编程) 的同事:我一个人干掉整个技术部!
https://mp.weixin.qq.com/s/1nV-3YCPBJcnpNasb_fN3A


编辑:Fred
更多资讯:http://news.searchkit.cn
继续阅读 »
1、TDBC 2025 大会聚焦 AI 与数据库融合 极限科技发布新一代 Coco AI 搜索平台
https://my.oschina.net/u/7209245/blog/18684967

2、Coco AI 快速构建本地文档知识库增强检索+智能问答系统
https://mp.weixin.qq.com/s/fcchZQm_FLuW_jhrZVwJlQ

3、一文了解 - Elasticsearch 搜索的底层原理-解析
https://mp.weixin.qq.com/s/06e_iIN43BgKVYJNAnmoLA

4、本地 RAG 实战:用 Easysearch + Ollama SDK 半小时搭建检索增强问答系统
https://mp.weixin.qq.com/s/G4Wk_A7G7QiZIQpjCYJ1kw

5、会 Vibe Coding(氛围编程) 的同事:我一个人干掉整个技术部!
https://mp.weixin.qq.com/s/1nV-3YCPBJcnpNasb_fN3A


编辑:Fred
更多资讯:http://news.searchkit.cn 收起阅读 »

极限科技亮相 TDBC 2025 可信数据库发展大会,连续三年荣誉入选信通院《中国数据库产业图谱》

2025 年 7 月 16 日,由中国通信标准化协会主办、中国信息通信研究院(以下简称“中国信通院”)承办的“TDBC 2025 可信数据库发展大会”在北京隆重召开。作为我国数据库领域的年度权威盛会,本次大会以“自主·创新·引领”为主题,聚焦数据库技术创新与产业实践,发布了多项前沿研究成果,并深入探讨了行业发展趋势。极限科技受邀参会,并凭借在搜索型数据库领域的突出表现,连续三年荣誉入选《中国数据库产业图谱(2025 年)》,再次彰显其技术实力与市场影响力

权威盛会聚焦技术前沿,共绘产业新蓝图

TDBC 2025 可信数据库发展大会是我国数据库行业规格最高、影响力最广的年度盛会之一。本届大会汇聚了政府主管部门、行业领袖、科研机构及企业代表,围绕数据库核心技术突破、行业应用落地、生态协同发展等议题展开深度交流。中国信通院在会上发布了一系列重磅研究成果,其中《中国数据库产业图谱》作为全面展示国内数据库产业生态的权威报告,备受业界关注。

极限科技连续三年入选产业图谱,搜索型数据库代表获权威认可

《中国数据库产业图谱(2025 年)》由中国信通院基于产品技术能力、产业服务水平、市场表现及生态建设等多维度综合评估编制,旨在为行业用户提供选型参考,推动资源向优质企业集聚。极限科技作为搜索型数据库的代表企业之一,凭借其自主研发的分布式搜索分析引擎、高性能实时数据处理能力,以及在金融、政务、能源等关键行业的深度实践,连续三年荣誉入选图谱,并收录于搜索型数据库及数据库生态社区技术社区版块,成为数据库产业生态中的标杆企业。

图:极限科技荣誉入选中国信通院《中国数据库产业图谱(2025 年)》

极限科技相关负责人表示:“连续三年入选产业图谱,既是行业对极限科技技术实力的肯定,也是我们持续深耕搜索型数据库领域的动力。未来,我们将继续坚持自主创新,深化技术突破,为行业客户提供更高效、更智能的数据检索与分析解决方案。”

以自主创新为引擎,引领搜索型数据库高质量发展

当前,随着企业数字化转型的加速,海量数据的实时检索与智能分析已成为刚需。极限科技聚焦搜索型数据库核心技术,通过分布式架构、AI 融合、云原生等技术创新,打造了覆盖数据全生命周期的产品矩阵。其核心产品支持 PB 级数据秒级响应,并具备高可用、弹性扩展等特性,已在多个国家级项目中落地应用,助力客户实现数据治理能力与业务效能的双重提升。

此次大会上,极限科技还与业界同仁共同探讨了搜索型数据库如何支撑数字经济高质量发展。与会专家指出,随着数据要素价值的加速释放,搜索型数据库作为挖掘数据价值的关键工具,其自主创新水平直接关系到国家数据安全与产业竞争力。极限科技的实践为行业提供了可复制的范本,彰显了中国数据库企业的责任与担当。

展望未来:携手生态伙伴,共筑可信数据底座

极限科技表示,未来将持续深化与中国信通院等权威机构的合作,积极参与标准制定与生态共建,推动搜索型数据库技术与产业需求的深度融合。同时,公司将加大研发投入,探索数据库与人工智能等新技术的协同创新,为构建安全、高效、智能的数据基础设施贡献力量。

TDBC 2025 可信数据库发展大会的圆满落幕,标志着我国数据库产业迈向更高水平的自主创新阶段。极限科技将以此次入选产业图谱为契机,携手行业伙伴,共同书写中国数据库产业的新篇章。

继续阅读 »

2025 年 7 月 16 日,由中国通信标准化协会主办、中国信息通信研究院(以下简称“中国信通院”)承办的“TDBC 2025 可信数据库发展大会”在北京隆重召开。作为我国数据库领域的年度权威盛会,本次大会以“自主·创新·引领”为主题,聚焦数据库技术创新与产业实践,发布了多项前沿研究成果,并深入探讨了行业发展趋势。极限科技受邀参会,并凭借在搜索型数据库领域的突出表现,连续三年荣誉入选《中国数据库产业图谱(2025 年)》,再次彰显其技术实力与市场影响力

权威盛会聚焦技术前沿,共绘产业新蓝图

TDBC 2025 可信数据库发展大会是我国数据库行业规格最高、影响力最广的年度盛会之一。本届大会汇聚了政府主管部门、行业领袖、科研机构及企业代表,围绕数据库核心技术突破、行业应用落地、生态协同发展等议题展开深度交流。中国信通院在会上发布了一系列重磅研究成果,其中《中国数据库产业图谱》作为全面展示国内数据库产业生态的权威报告,备受业界关注。

极限科技连续三年入选产业图谱,搜索型数据库代表获权威认可

《中国数据库产业图谱(2025 年)》由中国信通院基于产品技术能力、产业服务水平、市场表现及生态建设等多维度综合评估编制,旨在为行业用户提供选型参考,推动资源向优质企业集聚。极限科技作为搜索型数据库的代表企业之一,凭借其自主研发的分布式搜索分析引擎、高性能实时数据处理能力,以及在金融、政务、能源等关键行业的深度实践,连续三年荣誉入选图谱,并收录于搜索型数据库及数据库生态社区技术社区版块,成为数据库产业生态中的标杆企业。

图:极限科技荣誉入选中国信通院《中国数据库产业图谱(2025 年)》

极限科技相关负责人表示:“连续三年入选产业图谱,既是行业对极限科技技术实力的肯定,也是我们持续深耕搜索型数据库领域的动力。未来,我们将继续坚持自主创新,深化技术突破,为行业客户提供更高效、更智能的数据检索与分析解决方案。”

以自主创新为引擎,引领搜索型数据库高质量发展

当前,随着企业数字化转型的加速,海量数据的实时检索与智能分析已成为刚需。极限科技聚焦搜索型数据库核心技术,通过分布式架构、AI 融合、云原生等技术创新,打造了覆盖数据全生命周期的产品矩阵。其核心产品支持 PB 级数据秒级响应,并具备高可用、弹性扩展等特性,已在多个国家级项目中落地应用,助力客户实现数据治理能力与业务效能的双重提升。

此次大会上,极限科技还与业界同仁共同探讨了搜索型数据库如何支撑数字经济高质量发展。与会专家指出,随着数据要素价值的加速释放,搜索型数据库作为挖掘数据价值的关键工具,其自主创新水平直接关系到国家数据安全与产业竞争力。极限科技的实践为行业提供了可复制的范本,彰显了中国数据库企业的责任与担当。

展望未来:携手生态伙伴,共筑可信数据底座

极限科技表示,未来将持续深化与中国信通院等权威机构的合作,积极参与标准制定与生态共建,推动搜索型数据库技术与产业需求的深度融合。同时,公司将加大研发投入,探索数据库与人工智能等新技术的协同创新,为构建安全、高效、智能的数据基础设施贡献力量。

TDBC 2025 可信数据库发展大会的圆满落幕,标志着我国数据库产业迈向更高水平的自主创新阶段。极限科技将以此次入选产业图谱为契机,携手行业伙伴,共同书写中国数据库产业的新篇章。

收起阅读 »

【搜索客社区日报】第2077期 (2025-07-17)

1.$100 是怎么花的:用 GreptimeDB 实时跟踪 Claude Code 使用情况
https://mp.weixin.qq.com/s/9l1Uupthv9zBqvo5v_N94g
2.AWS Kiro 最懂程序员的IDE - SPEC模式初体验,稳得出人意料!
https://www.bilibili.com/video/BV18vgwzYEri/
3.Chunked-Prefills 分块预填充机制详解
https://mp.weixin.qq.com/s/JIvbYapMMtC8JkBEXHsG-A

编辑:Se7en
更多资讯:http://news.searchkit.cn
继续阅读 »
1.$100 是怎么花的:用 GreptimeDB 实时跟踪 Claude Code 使用情况
https://mp.weixin.qq.com/s/9l1Uupthv9zBqvo5v_N94g
2.AWS Kiro 最懂程序员的IDE - SPEC模式初体验,稳得出人意料!
https://www.bilibili.com/video/BV18vgwzYEri/
3.Chunked-Prefills 分块预填充机制详解
https://mp.weixin.qq.com/s/JIvbYapMMtC8JkBEXHsG-A

编辑:Se7en
更多资讯:http://news.searchkit.cn 收起阅读 »

【搜索客社区日报】第2076期 (2025-07-16)

1. 扔掉笨重的 Logstash!基于 Spring Boot 日志采集方案正式发布!
https://mp.weixin.qq.com/s/fC3iNOSWlSnofRM804RYOQ

2.森马服饰从 Elasticsearch 到阿里云 SelectDB 的架构演进之路
https://zhuanlan.zhihu.com/p/1927036355139045220

3.RAG 的最佳 PDF 提取器是什么?(搭梯)
https://levelup.gitconnected.c ... b06e0


编辑:kin122 
更多资讯:http://news.searchkit.cn
继续阅读 »
1. 扔掉笨重的 Logstash!基于 Spring Boot 日志采集方案正式发布!
https://mp.weixin.qq.com/s/fC3iNOSWlSnofRM804RYOQ

2.森马服饰从 Elasticsearch 到阿里云 SelectDB 的架构演进之路
https://zhuanlan.zhihu.com/p/1927036355139045220

3.RAG 的最佳 PDF 提取器是什么?(搭梯)
https://levelup.gitconnected.c ... b06e0


编辑:kin122 
更多资讯:http://news.searchkit.cn 收起阅读 »

【搜索客社区日报】第2075期 (2025-07-15)

1. 让老司机来给你讲讲结果折叠那些事儿(需要梯子)
https://medium.com/%40imadsadd ... 90485
2. 10亿记录一秒返回,干就完了(需要梯子)
https://medium.com/%40ApacheDo ... e3a12
3. 我在Trendyol我们是这样用ES做聚合的(需要梯子)
https://medium.com/trendyol-te ... 1c4b2
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
 
继续阅读 »
1. 让老司机来给你讲讲结果折叠那些事儿(需要梯子)
https://medium.com/%40imadsadd ... 90485
2. 10亿记录一秒返回,干就完了(需要梯子)
https://medium.com/%40ApacheDo ... e3a12
3. 我在Trendyol我们是这样用ES做聚合的(需要梯子)
https://medium.com/trendyol-te ... 1c4b2
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
  收起阅读 »