Well,不要刷屏了

搜索百科(2):Apache Solr — 企业级搜索的开源先锋

liaosy 发表了文章 • 0 个评论 • 73 次浏览 • 6 小时前 • 来自相关话题

大家好,我是 INFINI Labs 的石阳。

欢迎回到 《搜索百科》 专栏!每天 5 分钟,带你速览一款搜索相关的技术或产品,同时还会带你探索它们背后的技术原理、发展故事及上手体验等。

上一篇我们认识了[搜索技术的基石 Apache Lucene](https://infinilabs.cn/blog/202 ... ucene/),今天我们将继续这个旅程,了解基于 Lucene 构建的第一个成功商业级搜索平台 —— Apache Solr

![](https://infinilabs.cn/img/blog ... /1.jpg)

Solr 是什么?


Solr 是一款极速的开源多模态搜索平台,基于 Apache Lucene 的全文、向量和地理空间搜索能力构建而成。Solr 具备高可靠性、可扩展性和容错性,支持分布式索引、复制与负载均衡查询,提供自动故障转移与恢复、集中化配置等功能。如今,Solr 为全球众多大型互联网网站提供搜索和导航功能。

  • 首次发布:2004 年,2006 年进入 Apache
  • 最新版本:截至 2025 年,已更新至 9.x 系列
  • 核心依赖:Apache Lucene
  • 开源协议:Apache License 2.0
  • 官方网址:[https://solr.apache.org](https://solr.apache.org)
  • GitHub 仓库:[https://github.com/apache/solr](https://github.com/apache/solr)

    它的定位是:把 Lucene 打造成独立的企业级搜索服务。相比 Lucene 需要写代码调用,Solr 提供了 Web 管理界面、REST API 和配置文件,让开发者更容易上手。

    起源:从网站搜索到 Apache 顶级项目


    Solr(读作"solar")的故事始于 2004 年,当时 CNET 公司的开发人员 Yonik Seeley 需要为其新闻网站构建一个搜索功能。虽然 Lucene 提供了强大的核心搜索能力,但直接使用 Lucene 需要编写大量 Java 代码,缺乏开箱即用的功能。

    Seeley 决定在 Lucene 之上构建一个更易用的搜索服务器,于是 Solr 诞生了。最初的目标很明确:通过 HTTP/XML 接口提供搜索服务,让任何编程语言都能轻松集成搜索功能。

    2006 年,Solr 捐赠给 Apache 基金会,2007 年成为顶级项目。2010 年,Solr 与 Lucene 项目合并,形成了今天我们所知的 Apache Lucene/Solr 项目。

    技术架构


    ![](https://infinilabs.cn/img/blog ... re.jpg)

    Index(索引)

    Apache Solr 的索引就像是用于管理结构化 / 非结构化数据的“数据库”。它以便于分析和全文检索的方式存储数据。

    Query Parser(查询解析器)

    所有由客户端提交的查询都会由查询解析器处理。

    Response Handler(响应处理器)

    响应处理器负责为客户端生成合适格式的响应(如 JSON/XML/CSV)。

    Update Handler(更新处理器)

    更新处理器用于索引操作,即对索引中的数据进行插入、更新和删除。例如,如果我们希望 MySQL 数据与 Apache Solr 保持同步,就需要创建一个负责同步的更新处理器。

    功能亮点


  • 全文检索:高效支持关键词搜索、布尔查询、短语匹配等。
  • 分面搜索(Faceted Search):可以对搜索结果进行分类和聚合统计。
  • 分布式架构(SolrCloud):支持集群部署、自动分片、副本和容错。
  • 丰富的数据接口:提供 RESTful API,支持 JSON、XML、CSV 等多种格式的数据交互。
  • 扩展性与可定制性:通过插件机制支持多语言分词、排序、评分模型等个性化定制。
  • 地理位置搜索:内置空间搜索能力,支持基于经纬度的范围查询和排序。

    对比: Solr vs Elasticsearch 如何选择?


    虽然两者都基于 Lucene,但在设计哲学上有所不同:

    | 特性 | Apache Solr | Elasticsearch |
    | ------------ | ----------------------- | -------------------- |
    | 定位 | 企业级搜索服务器 | 分布式搜索和分析引擎 |
    | API | 更标准化,遵循传统 REST | 更灵活,JSON 原生 |
    | 分布式 | 需要 ZooKeeper 协调 | 内置分布式协调 |
    | 上手难度 | 相对简单,开箱即用 | 学习曲线较陡峭 |
    | 生态系统 | 搜索功能更丰富 | 分析和可视化更强 |
    | 适用场景 | 传统企业搜索、电商 | 日志分析、实时监控 |

    简单来说:Solr 更像"精装房",开箱即用;Elasticsearch 更像"毛坯房",需要更多自定义但更灵活。

    快速开始:5 分钟搭建 Solr 服务


    1. 下载和安装


    ```bash

    下载 8.x 版 Solr

    wget https://dlcdn.apache.org/solr/ ... 4.tgz

    解压

    tar -xzf solr-8.11.4.tgz

    启动 Solr(单机模式)

    cd solr-8.11.4
    bin/solr start
    ```

    2. 创建 Core


    ```bash

    创建测试 Core

    bin/solr create -c test_core

    查看 Core 状态

    bin/solr status
    ```

    3. 索引文档


    ```bash

    使用 curl 索引 JSON 文档

    curl http://localhost:8983/solr/test_core/update -d '
    [
    {"id": "1", "title": "Solr 入门指南", "content": "Apache Solr 是企业级搜索平台"},
    {"id": "2", "title": "搜索技术演进", "content": "从 Lucene 到 Solr 的技术发展"}
    ]' -H 'Content-type:application/json'

    提交更改

    curl http://localhost:8983/solr/test_core/update -d '' -H 'Content-type:application/xml'
    ```

    4. 执行搜索


    ```bash

    搜索"Solr"

    curl "<a href="http://localhost:8983/solr/test_core/select?q=content:Solr"" rel="nofollow" target="_blank">http://localhost:8983/solr/tes ... ot%3B

    使用 JSON 格式返回

    curl "<a href="http://localhost:8983/solr/test_core/select?q=content:Solr&wt=json"" rel="nofollow" target="_blank">http://localhost:8983/solr/tes ... ot%3B
    ```

    执行搜索返回结果:

    ![](https://infinilabs.cn/img/blog ... /2.png)

    访问 http://localhost:8983/solr 即可使用 Solr 的管理界面。

    Dashboard:
    ![](https://infinilabs.cn/img/blog ... /3.png)

    Core Admin:
    ![](https://infinilabs.cn/img/blog ... /4.png)

    结语


    从最初的公司内部工具,到成为全球范围内广泛使用的开源搜索引擎,Apache Solr 见证并推动了搜索技术的进化。尽管近年来 Elasticsearch、向量数据库和 AI 驱动的搜索技术逐渐崛起,但 Solr 依然是许多企业可靠且成熟的选择。它的故事不仅属于开源社区,也代表了搜索技术发展的一个重要阶段。

    ---

    🚀 下期预告
    在下一篇「搜索百科」中,我们将介绍它的明星兄弟 —— Elasticsearch

    💬 三连互动

    1. 你现在还在用 Solr 吗?
    2. 在 Solr 和 Elasticsearch 之间做过技术选型?
    3. 遇到过有趣的 Solr 使用案例或挑战?

      对搜索技术感兴趣的朋友,也欢迎加我微信(ID:lsy965145175)备注“搜索百科”,拉你进  搜索技术交流群,一起探讨与学习!

      ✨ 推荐阅读

  • [搜索百科(1):Lucene — 打开现代搜索世界的第一扇门](https://infinilabs.cn/blog/202 ... ucene/)

    🔗 参考

  • [Apache Solr 官方文档](https://solr.apache.org/guide)
  • [Apache Solr Fundamentals](https://medium.com/%40mansha99 ... 962cc8)

    原文:https://infinilabs.cn/blog/202 ... solr/

Coco AI 入驻 GitCode:打破数据孤岛,解锁智能协作新可能

INFINI Labs 小助手 发表了文章 • 0 个评论 • 3355 次浏览 • 2025-04-25 19:42 • 来自相关话题


在信息爆炸时代,企业正面临前所未有的挑战:

  • 企业数据和信息分散,数据孤岛现象严重,员工往往浪费大量时间跨平台检索;
  • 跨部门协作困难,团队因信息隔阂导致项目延期;
  • 数据安全问题严峻,迫使企业对数据管理提出高要求;
  • 传统搜索准确率不足,无法满足用户深层次需求;

    这正是 [Coco AI](https://coco.rs/) 诞生的契机——一款重新定义企业效率的智能中枢。

    Coco AI 是一个完全开源、跨平台的统一搜索与效率工具,深度融合大语言模型技术,实现从"人找信息"到"信息追人"的范式革命。目前已加入 GitCode 平台成为 G-Star 优秀毕业项目。通过连接 Google Workspace、Notion、语雀等 200+ 数据源,接入 DeepSeek 等大模型,构建企业级智能知识图谱,让数据真正流动起来,帮助企业高效管理和利用内外部数据资源。

    ![](https://infinilabs.cn/img/blog ... co.png)

    多种功能 一次集合


    全域智能搜索


  • Coco AI 支持整合企业内部和外部的多种数据源,包括 Google Workspace、Dropbox、GitHub、本地文件系统等。
  • 提供统一的搜索界面,用户无需切换多个平台即可快速检索所需信息。

    AI 知识管家


  • 内置基于生成式 AI 的聊天助手,能够理解企业内部的文档、对话记录和工作流程。
  • 支持从互联网、内部知识库和指定数据源中提取信息,提供与组织相关的智能回答。
  • 支持在搜索模式和聊天模式之间快速切换。

    企业安全中枢


  • 遵循企业级权限管理规范,确保数据访问的安全性。
  • 支持私有化部署,满足企业对数据隐私的高要求。
  • 允许开发者根据需求进行定制和扩展,支持企业自行部署,确保数据隐私和安全。

    协作生态集成


  • 用户可以直接与单个文件或数据源进行交互,例如对文档内容提问或生成摘要。
  • 通过整合团队常用的工具和数据源,提升团队协作效率。
  • 支持基于上下文的多轮对话,帮助团队成员快速获取所需信息。
  • 在 1 分钟内轻松将 Coco AI 功能嵌入到您的网站中。

    架构设计图


    ![](https://infinilabs.cn/img/blog ... re.png)

    核心模块 “Coco Server” 提供搜索、聊天、附件管理、索引、嵌入、安全等功能,并通过 API 实现与外部系统的交互。同时,系统支持自定义 UI,为用户提供个性化的搜索和任务管理体验,并通过 AI 助手提供智能化的信息交互体验。

    从 V0.3 到行业标准,Coco AI 持续进化,致力于推动知识管理和信息检索的变革,加速企业数字化转型。

    立即访问


    GitCode 了解 Coco AI,让您的企业获得:

  • 每年节省百万级人力成本
  • 打造永不遗忘的组织和大脑
  • 激活数据资产的复合价值

    开源可许:

    MIT License

    项目地址:

    <https://gitcode.com/infinilabs/coco-app>;

    快来 ⭐️ Star 支持 Coco AI 吧 ~

    直播预告


    4 月 28 日 星期一 19:00 极限科技(INFINI Labs)团队带您全面解析 Coco AI,探索其核心功能、技术架构及实际应用场景,领略智能搜索与知识管理的革新。

    ![](https://infinilabs.cn/img/blog ... er.jpg)

    CSDN 直播间地址 👇

    https://live.csdn.net/room/csdnedu/q6BD0Kui

    关于 Gitcode


    ![](https://infinilabs.cn/img/blog ... de.gif)

    [GitCode](https://gitcode.com/) 新一代由 AI 驱动的开源开发者平台,依托 CSDN 开发者社区,通过集成代码托管服务、代码仓库和可信赖的开源组件库,使开发者能够在云端进行代码托管和开发,平台提供了丰富的功能支持和完善的生态体系,帮助开发者轻松管理和分享代码,为开源项目提供强有力的支持。

    作者:GitCode
    原文:https://mp.weixin.qq.com/s/03VTrmVXzflO6QTcZaCLTA

INFINI Labs 助力开源与教育:免费许可证计划全面升级

INFINI Labs 小助手 发表了文章 • 0 个评论 • 3446 次浏览 • 2024-06-19 17:21 • 来自相关话题

![免费许可证计划](https://infinilabs.cn/img/blog ... p3.jpg)

在数字化浪潮席卷全球的今天,INFINI Labs 深刻认识到开源项目和教育机构在技术创新与人才培养中的核心作用。因此,我们郑重推出全新升级的免费许可证计划,旨在全球范围内为开源社区和教育界提供有力支持,共同推动软件生态的繁荣与进步。

一、产品实力与荣誉


1.INFINI Pizza:实时搜索的新纪元


[![INFINI Pizza](https://infinilabs.cn/img/blog ... p1.jpg)](https://pizza.rs/)

  • 在[第十三届“数据技术嘉年华”(DTC2024)](https://infinilabs.cn/blog/2024/news-20240413/)上,INFINI Labs 发布了划时代的搜索引擎——INFINI Pizza,标志着搜索型数据库迈入实时搜索的新纪元。
  • INFINI Pizza 凭借先进的设计理念与架构,以及独有的专利技术,实现了对海量数据的无限伸缩,提供高效、准确的实时数据搜索能力

    2.行业标杆案例


  • INFINI Labs 荣获中国信通院[大数据“星河”标杆案例](https://infinilabs.cn/blog/2023/news-20231211/),其中移动云搜索数据库案例更是荣选为数据库标杆案例。
  • 该案例基于移动云 Easysearch 数据库,通过创新的多集群协同模式,实现了数据高性能存取,展现出极高的经济价值与社会价值。

    3.国家发明专利认可


  • INFINI Labs 的多项自主研发技术获得[国家发明专利授权](https://infinilabs.cn/blog/2023/news-20230907/),这些成果彰显了公司在大数据领域的技术实力与创新精神。

    二、品牌与行业地位


  • INFINI Labs 作为搜索型数据库产品领域的领军企业,积极参与行业标准的制定与推动。

  • 其核心产品 INFINI Easysearch 荣获[信通院首批可信搜索型数据库产品证书](https://infinilabs.cn/blog/2023/news-20230704/),再次印证了公司在行业中的领先地位。

    三、产品介绍


    ![Products](https://infinilabs.cn/img/blog ... p2.jpg)

    1. INFINI Easysearch:作为 Elasticsearch 的国产化替代方案,提供高度兼容性与卓越性能,满足企业级需求。

    2. INFINI Console:轻量级多集群、跨版本搜索基础设施统一管控平台,助力企业高效管理搜索集群。

    3. INFINI Gateway:专为 Elasticsearch 打造的高性能应用网关,提供丰富的功能特性与卓越性能。

    4. INFINI Loadgen:支持多种搜索引擎的轻量级压测工具,为企业提供强大的数据加载与测试能力。

    5. INFINI Pizza:引领实时搜索时代的新星,为企业提供高效、准确的实时数据搜索解决方案。

      四、免费许可证计划


      1.教育机构学术许可证


  • 面向全球公立或私立学校、职业学校、大学等教育机构,提供非商业用途的软件使用许可。

  • 有效期一年,符合条件的教育机构可继续申请。

    2.开源项目许可证


  • 面向非商业开源项目开发者,要求项目拥有活跃社区并在其官网添加 INFINI Labs 的链接。

  • 许可证免费,有效期一年,符合条件的项目可继续申请。

    五、申请方式


    符合条件的开源项目和教育机构可通过访问 [INFINI Labs](https://infinilabs.cn) 官方网站,轻松提交申请,我们将尽快审核并回复。

    申请链接:[https://infinilabs.cn/community](https://infinilabs.cn/community)

    六、结语


    INFINI Labs 以全新升级的免费许可证计划为契机,与全球开源社区和教育界携手合作,共同推动软件生态的创新与发展。让我们共同迎接更加美好的未来!

    七、关于极限科技(INFINI Labs)


    ![INFINI Labs](https://infinilabs.cn/img/blog ... bs.png)

    极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

    极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

    官网:[https://www.infinilabs.cn](https://www.infinilabs.cn)

    ![联系我们](https://infinilabs.cn/img/blog ... us.png)

    原文:https://infinilabs.cn/blog/202 ... ades/

有没有人用CreateDB啊???

回复

Charele 回复了问题 • 1 人关注 • 1 个回复 • 3894 次浏览 • 2024-06-17 13:34 • 来自相关话题

开源中国专访 TJ:开源许可证,欢迎来到云时代

MongoDB中文社区 发表了文章 • 0 个评论 • 2 次浏览 • 2022-08-17 14:21 • 来自相关话题

近年来,一批新的开源许可证的出现,在社区内引发了一些激烈的讨论。从争论的角度主要分为两大阵营:原教旨主义和实用主义。本文将重点谈谈关于这些争论的思考与实践。
近年来,一批新的开源许可证的出现,在社区内引发了一些激烈的讨论。从争论的角度主要分为两大阵营:原教旨主义和实用主义。本文将重点谈谈关于这些争论的思考与实践。

elastic / support-diagnostics诊断工具使用问题

回复

匿名用户 回复了问题 • 2 人关注 • 2 个回复 • 3752 次浏览 • 2022-04-07 11:35 • 来自相关话题

极限网关指定request_path_limiter后,不再返回信息

medcl 回复了问题 • 2 人关注 • 1 个回复 • 2086 次浏览 • 2021-10-27 11:25 • 来自相关话题

filebeat-oss-*-linux-x86_64.tar.gz内部可执行文件不符合安全编译要求

回复

UtopianJ 发起了问题 • 1 人关注 • 0 个回复 • 3131 次浏览 • 2021-06-25 16:25 • 来自相关话题

kafka会减少网络I/O次数

回复

qiangzhiwei 发起了问题 • 1 人关注 • 0 个回复 • 3228 次浏览 • 2021-05-07 17:33 • 来自相关话题

elasticsearch 支持 yara吗?elasticsearch 插件 elasticsearch-yara

回复

15210602359znn 回复了问题 • 2 人关注 • 2 个回复 • 3527 次浏览 • 2021-04-07 17:20 • 来自相关话题

使用代理,rocketmq报回传的错误

回复

hcc 发起了问题 • 1 人关注 • 0 个回复 • 4294 次浏览 • 2020-12-11 09:55 • 来自相关话题

Elastic日报 第1077期 (2020-10-15)

千夜 发表了文章 • 0 个评论 • 3316 次浏览 • 2020-10-14 19:11 • 来自相关话题

1、Logging with ElasticSearch, Kibana, ASP.NET Core and Docker
https://mp.weixin.qq.com/s%3F_ ... ab24f
2、Cerebro
https://github.com/lmenezes/cerebro
3、esquery
https://github.com/aquasecurity/esquery

编辑:江水
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
 

hive-cdh源码打包

回复

DragonLi 发起了问题 • 1 人关注 • 0 个回复 • 4264 次浏览 • 2020-04-23 09:53 • 来自相关话题

一个关于hdfs源码的问题!!

回复

solike8 发起了问题 • 1 人关注 • 0 个回复 • 3637 次浏览 • 2019-08-14 09:50 • 来自相关话题

kafka manager 中的Brokers skew 什么含义啊?

回复

sterne vencel 回复了问题 • 1 人关注 • 2 个回复 • 10806 次浏览 • 2018-06-25 12:21 • 来自相关话题