如何用 Scrapy 爬取网站数据并在 Easysearch 中进行存储检索分析
Easysearch • INFINI Labs 小助手 发表了文章 • 0 个评论 • 5152 次浏览 • 2024-09-13 12:28
![](https://infinilabs.cn/img/blog ... bg.png)
做过数据分析和爬虫程序的小伙伴想必对 Scrapy 这个爬虫框架已经很熟悉了。今天给大家介绍下,如何基于 Scrapy 快速编写一个爬虫程序并利用 Easysearch 储存、检索、分析爬取的数据。我们以极限科技的官网 Blog 为数据源([https://infinilabs.cn/blog](https://infinilabs.cn/blog)) ,做下实操演示。
1、安装 scrapy
使用 Scrapy 可以快速构建一个爬虫项目,从目标网站中获取所需的数据,并进行后续的处理和分析。
```python
pip install scrapy
新建项目 infini_spiders
scrapy startproject infini_spiders
初始化爬虫
cd infini_spiders/spiders
scrapy genspider blog infinilabs.cn
```
2、爬虫编写
编写一个爬虫文件 blog.py ,它会首先访问 start_urls 指定的地址,将结果发给 parse 函数解析。通过这一步解析,我们得到了每一篇博客的地址。然后我们对每个博客的地址发送请求,将结果发给 parse_blog 函数进行解析,在这里才会真正提取每篇博客的 title、tag、url、date、content 内容。
python<br /> from typing import Any, Iterable<br /> import scrapy<br /> from bs4 import BeautifulSoup<br /> from scrapy.http import Response<br /> <br /> class BlogSpider(scrapy.Spider):<br /> name = "blog"<br /> allowed_domains = ["infinilabs.cn"]<br /> start_urls = ["<a href="https://infinilabs.cn/blog/"" rel="nofollow" target="_blank">https://infinilabs.cn/blog/"</a>]<br /> <br /> def parse(self, response):<br /> links = response.css("div.blogs a")<br /> yield from response.follow_all(links, self.parse_blog)<br /> <br /> def parse_blog(self, response):<br /> title = response.xpath('//div[@class="title"]/text()').extract_first()<br /> tags = response.xpath('//div[@class="tags"]/div[@class="tag"]/text()').extract()<br /> url = response.url<br /> author = response.xpath('//div[@class="logo"]/div[@class="name"]//text()').extract_first()<br /> date = response.xpath('//div[@class="date"]/text()').extract_first()<br /> all_text = response.xpath('//p//text() | //h3/text() | //h2/text() | //h4/text() | //ol/li//text()').extract()<br /> content = '\n'.join(all_text)<br /> <br /> yield {<br /> 'title': title,<br /> 'tags': tags,<br /> 'url': url,<br /> 'author': author,<br /> 'date': date,<br /> 'content': content<br /> }<br />
提取完我们想要的内容后,接下来就要考虑存储了。考虑到要对内容进行检索、分析,接下来我们将内容直接存放到 Easysearch 当中。
3、安装插件
通过安装 ScrapyElasticsearch pipeline 可将 scrapy 爬取的内容存入到 Easysearch 中。
python<br /> pip install ScrapyElasticSearch<br />
修改 scrapy 自带的配置文件 settings.py ,添加以下内容。
python<br /> ITEM_PIPELINES = {<br /> 'scrapyelasticsearch.scrapyelasticsearch.ElasticSearchPipeline': 10<br /> }<br /> <br /> ELASTICSEARCH_SERVERS = ['http://192.168.56.3:9210']<br /> ELASTICSEARCH_INDEX = 'scrapy'<br /> ELASTICSEARCH_INDEX_DATE_FORMAT = '%Y-%m-%d'<br /> ELASTICSEARCH_TYPE = '_doc'<br /> ELASTICSEARCH_USERNAME = 'admin'<br /> ELASTICSEARCH_PASSWORD = '9423d1d5345ed6d0db19'<br />
ScrapyElasticSearch 会以 bulk 方式写入 Easysearch,每次批量的大小由 scrapyelasticsearch.scrapyelasticsearch.ElasticSearchPipeline 参数控制,大家可自行修改。
在上述配置中,我们会将爬到的数据存放到 scrapy-yyyy-mm-dd 索引中。
4、启动爬虫
在 infini_spiders/spiders 目录下,使用命令启动爬虫。
bash<br /> scrapy crawl blog<br />
blog 就是爬虫的名字,对应到 blog.py 里面的 name 变量。运行完成后,就可以去 Easysearch 里查看数据了,当然我们还是使用 Console 进行查看。
5、查看数据
先查看下索引情况,scrapy 索引已经生成,里面有 129 篇博客。
![](https://infinilabs.cn/img/blog ... /1.png)
查看详细内容,确保博客正文已经保存。
![](https://infinilabs.cn/img/blog ... /2.png)
到了这一步,我们就能使用 [Console](https://infinilabs.cn/products/console) 对博客进行搜索、分析了。
![](https://infinilabs.cn/img/blog ... /3.png)
![](https://infinilabs.cn/img/blog ... /4.png)
6、结语
这次的分享就到这里了。欢迎与我一起交流 ES 的各种问题和解决方案。
![](https://infinilabs.cn/img/blog ... gf.png)
关于 Easysearch
![](https://infinilabs.cn/img/blog ... er.png)
INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。
官网文档:<https://infinilabs.cn/docs/latest/easysearch>
作者:杨帆
原文:https://infinilabs.cn/blog/202 ... arch/
搜索客社区日报 第1899期 (2024-09-11)
社区日报 • kin122 发表了文章 • 0 个评论 • 5036 次浏览 • 2024-09-11 13:37
https://mp.weixin.qq.com/s/dGgPK5tKECrF33kziSbKuQ
2.在 Elastic 8.15 中使用最少的代码快速构建 RAG
https://blog.csdn.net/UbuntuTo ... 25165
3.RAG LLM 最佳实践(搭梯)
https://medium.com/israeli-tec ... 1201f
编辑:kin122
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第1898期 (2024-09-10)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 3292 次浏览 • 2024-09-10 08:23
1. 用够浪+redis+es搭的实时告警…很强(需要梯子)
https://levelup.gitconnected.c ... c9cef
2. 日志处理里ES是最好的选择吗?(需要梯子)
https://medium.com/%40greptime ... e690e
3. 给你的程序配一个搜索引擎需要多久?最多45分钟!(需要梯子)
https://medium.com/%40danielre ... 45761
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第1897期 (2024-09-09)
社区日报 • Muses 发表了文章 • 0 个评论 • 3227 次浏览 • 2024-09-09 15:43
https://mp.weixin.qq.com/s/_j1gpz_rNVO8-V1JPwvOgA
2. 基于 INFINI Pizza 为 Hugo 静态站点添加搜索功能
https://infinilabs.cn/blog/202 ... izza/
3. 搜索引擎原理解析:从0开始实现一个搜索引擎
https://cloud.tencent.com/deve ... 72543
4. 利用MongoDB进行数据治理,防范构建生成式AI应用程序时的潜在安全风险
https://www.modb.pro/db/182607 ... x_hot
5. 一篇文章让你彻底掌握 Shell
https://mp.weixin.qq.com/s/GmSqHJiBToncvcpFAJUZbw
编辑:Muse
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第1896期 (2024-09-06)
社区日报 • Fred2000 发表了文章 • 0 个评论 • 3230 次浏览 • 2024-09-09 15:31
https://www.mongodb.com/zh-cn/ ... arch/
2、Elasticsearch 8 让企业更快更好地落地 RAG 应用
https://mp.weixin.qq.com/s/smR2Q_HarUFA4pSCoN8tNA
3、OpenSearch:通过并发段搜索提高矢量搜索性能
https://opensearch.org/blog/bo ... -css/
4、多模态大型语言模型 (LLM) 的工作原理
https://mp.weixin.qq.com/s/1qYuYa-L53M9WwfvHNvl_Q
编辑:Fred
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第1895期 (2024-09-05)
社区日报 • Se7en 发表了文章 • 0 个评论 • 3879 次浏览 • 2024-09-05 13:41
https://mp.weixin.qq.com/s/qosGdlMJO_w2Ge3i0hdHlA
2.深入体验全新 Cursor AI IDE 后,说杀疯了真不为过!
https://mp.weixin.qq.com/s/CnKMYjpn3YeoHYpoZ7iGIw
3.KubeCon China 回顾|快手的 100% 资源利用率提升:从裸机迁移大规模 Redis 到 Kubernetes
https://mp.weixin.qq.com/s/UGqzq1L2Hu1PjF3Y08XT5Q
编辑:Se7en
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第1894期 (2024-09-04)
社区日报 • kin122 发表了文章 • 0 个评论 • 3896 次浏览 • 2024-09-04 11:13
https://zhuanlan.zhihu.com/p/714675735
2.时隔3年重新开源,这些 ElasticSearch 应用技能运维必会?
https://mp.weixin.qq.com/s/vGbH-rkurt2ydRBPiVrC4w
3.Elasticsearch 回顾:向量搜索创新的时间线
https://blog.csdn.net/UbuntuTo ... 68994
编辑:kin122
更多资讯:http://news.searchkit.cn
_reindex时怎样判断当目标记录中某个字段值大于原记录字段时跳过不更新?
Elasticsearch • kin122 回复了问题 • 3 人关注 • 2 个回复 • 4128 次浏览 • 2024-12-07 23:13
【搜索客社区日报】第1893期 (2024-09-03)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 4074 次浏览 • 2024-09-03 09:24
https://medium.com/%40imriqwe/ ... f7622
2. ES里的搜索上下文和filter上下文是啥?(需要梯子)
https://mahajanjatin-14.medium ... d31de
3. 来来来,老司机教你几步解决未分配的分片(需要梯子)
https://medium.com/%40yago82/a ... 33d9d
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第1892期 (2024-09-02)
社区日报 • Muses 发表了文章 • 0 个评论 • 3977 次浏览 • 2024-09-02 16:49
https://blog.csdn.net/tMb8Z9Vd ... 61894
2. 【2024年8月】盘点国内可用的 Web Search API,仅此一家 —— 博查AI搜索,可平替Bing Search API
https://blog.csdn.net/cxk19980 ... 19049
3. 8月数据库圈值得关注的事 | 2024
https://tech.it168.com/a2024/0 ... shtml
4. 欢迎来到 AI 中心新时代——Arista EOS 系统助力构建强大的 AI 网络
https://www.bytebt.cn/bytebrid ... .html
5. 从RAG到TAG:探索AI与数据库的完美结合
https://mp.weixin.qq.com/s/o8sR4YYx71xh-IW9D00FzA
编辑:Muse
更多资讯:http://news.searchkit.cn
🔥 Rust China Conf 2024 震撼来袭,INFINI Pizza 搜索引擎重磅亮相!
活动 • INFINI Labs 小助手 发表了文章 • 0 个评论 • 3887 次浏览 • 2024-08-31 17:10
随着 Rust 语言以其在性能、安全性和并发性方面的卓越表现,赢得了全球开发者的青睐,Rust 社区正迎来前所未有的发展机遇。在这个充满活力与潜力的背景下,Rust China Conf 2024 震撼来袭!
Rust 大会介绍
Rust 大会即将于 9 月 7 日 - 8 日在上海盛大举办。作为年度国内规模最大并唯一的 Rust 线下大型会议,它由 Rust 中文社区发起主办、知名企业和开源组织联合协办,深受开发者与相关企业的喜爱与推崇。自 2020 年起,已连续举办四年,今年预计将吸引超过 400 名一线程序员和企业用户,他们已在个人或公司项目中实践 Rust,期待在此交流心得、共享经验,共同推动 Rust 生态的繁荣与发展。
![](https://infinilabs.cn//img/blo ... bg.jpg)
INFINI Labs 亮相 Rust 大会
作为本次大会的重要赞助商之一,INFINI Labs 将携手蚂蚁集团、字节跳动、JetBrains、亚马逊云科技、华为、Greptime 等知名企业,为与会者带来创新的灵感和实践的洞见。INFINI Labs 的创始人 & CEO 曾勇先生将分享《基于 Rust 编写下一代实时搜索引擎》—— INFINI Pizza 的故事,这款搜索引擎旨在解决海量数据的实时搜索需求,释放现代硬件的潜力,为企业打造高效、准确的搜索解决方案。
![](https://infinilabs.cn//img/blo ... /1.png)
大会部分议题亮点抢先看
《人人可用的 Rust》
讲师简介: Rebecca Rumbul,Rust 基金会执行董事兼首席执行官, OpenUK 董事会成员, OpenSSF 管理委员会成员。
议题介绍: 本次分享将介绍 Rust 基金会如何投资于工程和推广工作,以确保 Rust 对所有人来说都是有用、高效且安全的。
《携手共建繁荣的 Rust OS 内核软件生态》
讲师简介: 田洪亮,田洪亮博士是蚂蚁研究院操作系统方向的负责人, 在 Rust 编程和内核开发方面有丰富的经验,荣获 OS2ATC'24 颁发的开源创新先锋奖。他发起的 Occlum 项目,是业界最早的 Rust OS 开源项目, 已发展成可信执行环境中最流行的 library OS,荣登中科协发布的"科创中国"开源创新榜单。曾就职于 Intel Labs China,博士毕业于清华大学。
议题介绍: Rust 语言以其高效、安全和生产力被视为系统编程,尤其是 OS 编程的未来。但在开发 OS 内核时,存在频繁使用 unsafe、缺乏 Cargo 支持、以及可重用的 no_std crates 不足等痛点。星绽开源社区提出了星绽 Framework 和星绽 OSDK,提供强大的 safe API 和开发工具链, 使得 Rust 内核开发更加安全、高效,并促进了 no_std crates 的复用与组合,旨在提升开发者生产力并推动 Rust 生态的繁荣。
《用 Rust 构建高性能的生成式 AI 应用》
讲师简介: 王宇博,现任亚马逊云科技大中华区开发者关系总监、首席布道师,致力于新一代信息技术与创新在开发者中的布道推广,以及开发者生态体系的建设。
议题介绍: 生成式 AI 技术在自然语言处理和图像生成领域快速发展。对于 Rust 开发者来说,利用 Rust 的高性能特性构建高效、可靠的生成式 AI 应用至关重要。本次演讲将深入探讨在 Rust 中开发生成式 AI 应用的实践方法,分析其在数值计算和并发编程中的优势,并分享确保应用可靠性和安全性的最佳实践,帮助开发者掌握构建高性能生成式 AI 应用的技巧。
《字节跳动在 Rust 服务端方向的实践与思考》
讲师简介: 吴迪,字节跳动服务框架 Rust 负责人,负责字节跳动 Rust 生态建设与推广落地。
议题介绍: 字节跳动三年前开始投资 Rust 服务端开发,构建了内部生态并开源核心框架 Volo。现在已在多个业务线成功落地,规模国内最大,收益超预期。本次分享将介绍选择 Rust 的原因、落地心得及未来技术趋势的思考。
《Async Rust 维测&定位的探索和思考》
讲师简介:
陈明煜:毕业于加州大学圣地亚哥分校,现就职于华为,OpenHarmony Ylong Rust 异步框架的开发者,致力于推动 OH 应用的 Rust 异步化。
楼智豪:毕业于浙江大学,现就职于华为,参与过 Rust 与 Cangjie 语言的开源贡献,现从事 Rust 在 OpenHarmony 中的应用。
议题介绍: 本议题将介绍我们在 OpenHarmony 中遇到的一些异步框架使用问题,以及我们在 Rust 异步调测与定位方面的探索。内容包括对业界常见异步框架的维测能力调研,以及对 Rust 无栈协程的推栈处理和跨 FFI 的 C++ exception 问题解决方法,旨在提升 Rust 异步的可商用性。
《Rust HashMap:比看起来更复杂》
讲师简介: 曹瑞秋,蚂蚁集团高级开发工程师,Apache HoraeDB/CeresDB 核心开发者,Apache HoraeDB PPMC member,长期专注于时序数据库领域。
议题介绍: Rust HashMap 看似简单,实际使用中存在诸多"坑点",尤其在 CPU 消耗和内存占用方面。分段 HashMap 设计中的伪共享和内存访问局部性差会影响性能。HashMap 的 capacity 通常远大于指定值,加之内存访问特性,会占据大量物理内存。此外,with_capacity
方法和 allocator 内存池的使用不当可能导致内存释放问题。因此,使用 Rust HashMap 需要细心设计。
《Rust 和 C++ 互操作及交叉编译》
讲师简介: 朱树磊,北京大学物理学士,德国 TUM 硕士,现任浙江大华技术股份有限公司高级算法专家。从事人工智能算法研发工作 10 余年,擅长机器学习、深度学习和大数据智能等技术领域,具备丰富的人工智能算法系统设计和开发经验。
议题介绍: Rust 和 C++ 经常需要共存,但 C++ 的交叉编译复杂性是一个挑战。本次分享将介绍如何使用 cxx 让 Rust 和 C++ 代码共存,并通过 LLVM 工具链补齐 C++ 交叉编译的短板,让 C++ 和 Rust 的互操作简单可移植。
《超大规模:抖音直播的 Rust 技术落地实践》
讲师简介: 赵鹏,抖音直播架构师,Rust 技术负责人。
议题介绍: 抖音直播从 2022 年开始引入 Rust 技术栈,用于应对直播业务中的超低延时、超高性能挑战,取得了远超预期巨大的收益。两年时间里我们有 20+ 个头部服务完成了 Rust 重构,吞吐平均提升超 100%,节省了 16w 核 CPU 资源,多个服务 SLA 提升至 6 个 9,目前我们的 Rust 服务在线上承担着超 4000w qps 的请求。Rust 技术在抖音直播研发团队二级部门实现了 100% 覆盖,每个子业务团队都有 Rust 服务在线上运行。我们还成立了专门的 Rust 技术组帮助解决业务公共问题,沉淀了完整的 Rust 研发流水线,基本实现了 Rust 新人两周即可上手开发,两个月完成一个 Rust 服务上线的速度。综合 Rust 服务类型覆盖、数量、资源占用、开发人员、生态、基建完善程度,抖音直播已经是国内规模最大的 Rust 技术生产环境落地团队,本次分享将给大家介绍我们从选型、验证、落地、推广到维护过程中的真实实践经验,希望能够帮助到其他同行朋友。
---
大会完整议程:[https://rustcc.cn/2024conf/schedule.html](https://rustcc.cn/2024conf/schedule.html)
大会报名
本次大会致力于成为中国 Rustaceans 面对面交流的盛宴,为国内的 Rust 开发者和企业提供一次充分的成果展示、技术分享、能力提升、行业资讯交流、企业人才储备建设的机会。欢迎购票参与现场交流。
🔗 报名链接 / 扫二维码:
https://4292817522623.huodongx ... 19111
![](https://infinilabs.cn//img/blo ... /2.png)
关于极限科技(INFINI Labs)
![INFINI Labs](https://infinilabs.cn/img/blog ... bs.png)
极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
官网:[https://infinilabs.cn](https://infinilabs.cn)
【搜索客社区日报】第1891期 (2024-08-30)
社区日报 • Fred2000 发表了文章 • 0 个评论 • 3888 次浏览 • 2024-08-30 16:48
https://infinilabs.cn/blog/202 ... izza/
2、Elastic 宣布修改开源协议为 AGPL,Elasticsearch 再次成为开源软件
https://mp.weixin.qq.com/s/xA82A3Y6pUmhoF6LYOpimw
3、搜索客 Meetup 活动回顾 - Elasticsearch 的代码结构和写入查询流程的解读-下篇(附PPT和视频回放)
https://mp.weixin.qq.com/s/lL0BxN7j8aUTXfegFI_sYw
4、听声识病不再是神话!Google AI用声音数据预测健康风险,让声音成为健康监测新工具
https://mp.weixin.qq.com/s/Fx_nBP7ERDKN9FOR4idlNg
编辑:Fred
更多资讯:http://news.searchkit.cn
Elastic 宣布修改开源协议为 AGPL:Elasticsearch 再次成为开源软件
Elasticsearch • searchkit 发表了文章 • 0 个评论 • 5055 次浏览 • 2024-08-30 11:26
今日快讯!就在刚刚,开源搜索领域行业巨头 Elastic 官方博客发表了一篇最新公告《Elasticsearch is Open Source, Again》,Elastic 创始人& CTO Shay Banon 宣布 Elasticsearch 和 Kibana 许可证协议修改为 AGPL。
以下为搜索客社区从 Elastic 官方博客翻译的原文内容:
---
Elasticsearch 再次成为开源软件
[D.N.A] Elasticsearch 和 Kibana 现在可以再次被称为开源软件了。这句话让我感到无比的兴奋。真的忍不住跳起来庆祝!我们所有在 Elastic 的人都很高兴。开源精神是我的DNA,也是 Elastic 的DNA。能够再次称 Elasticsearch 为开源软件,真的是一种纯粹的快乐。
[LOVE.] 简而言之,我们将在接下来的几周内,除了 ELv2 和 SSPL 之外,增加 AGPL 作为另一个许可选项。在更改许可后,我们从未停止过像一个开源社区一样相信和行动。但通过使用 AGPL 这一获得开放源码促进会(OSI)批准的许可,消除了人们可能存在的任何疑问或混淆。
[Not Like Us] 我们在 Elastic 从未停止过对开源的信仰。我个人对开源的信仰也从未动摇,至今已有 25 年了。那么为什么三年前我们要做出改变呢?我们遇到了与 AWS 相关的问题,以及他们的服务引发的市场混乱。在尝试了所有能想到的其他选项后,我们更改了许可协议,明知道这会导致 Elasticsearch 被分叉成另一个名称并走上不同的发展轨迹。这是一个漫长的故事。
[Like That] 好消息是,虽然过程痛苦,但结果奏效了。三年后,亚马逊已经完全投入到了他们的分叉项目中,市场的混乱(大部分)得到了缓解,我们与 AWS 的合作伙伴关系比以往更强。我们甚至被评为 AWS 的年度合作伙伴。我一直希望时间能过去得足够久,以至于我们可以安全地回到开源项目的状态——现在终于到了。
[All The Stars] 我们希望尽可能简化用户的使用体验。我们有用户非常喜欢 ELv2(一个受 BSD 启发的许可)。我们也有用户已经批准使用 SSPL(通过 MongoDB 使用)。这就是为什么我们只是增加了一个选项,而不是移除任何东西。如果你已经在使用并喜欢 Elasticsearch,请继续使用,没有任何变化。对于其他人,现在你也可以选择使用 AGPL。
[LOYALTY.] 我们选择 AGPL 而不是其他许可,是因为我们希望通过与 OSI 的合作,能在开源许可领域创造更多的选项。随着我们更改许可以来的发展(例如 Grafana 从 Apache2 转移到 AGPL),也许 AGPL 已经足够适用于像我们这样的基础设施软件了。我们致力于找到最合适的解决方案。
[euphoria] 我非常高兴能够再次称 Elasticsearch 为开源软件。
[Alright] 任何改变都可能引发混淆,当然也可能引来一些网络喷子。(网络喷子总是存在的,对吧?)让我们愉快地回答一些可能出现的问题吧。我可以想象到的一些问题如下,但我们会继续补充。
“更改许可是个错误,Elastic 现在在回撤”:我们在三年前更改许可时消除了很多市场混乱。由于我们的行动,很多事情已经改变。现在是一个完全不同的市场环境。我们不生活在过去。我们希望为用户打造一个更好的未来。正是因为我们当时采取了行动,现在我们才有能力采取新的行动。
“AGPL 不是真正的开源许可,X 才是”:AGPL 是获得 OSI 批准的许可,并且被广泛采用。例如,MongoDB 曾经使用 AGPL,Grafana 现在也是 AGPL。这表明 AGPL 并不影响使用或流行度。我们选择 AGPL 是因为我们认为这是与 OSI 一起为世界开辟更多开源道路的最佳方式,而不是减少开源。
“Elastic 更改许可是因为他们表现不好”:我要说的是,我今天对 Elastic 的未来依然充满期待。我为我们的产品和团队的执行力感到无比自豪。我们发布了无状态的 Elasticsearch ES|QL 和大量用于 GenAI 用例的向量数据库/混合搜索改进。我们在日志记录和可观察性方面大力投入 OTel。我们的安全产品 SIEM 不断添加令人惊叹的功能,并且是市场上增长最快的产品之一。用户的反应让我们感到非常谦卑。股市总有起伏,但我可以向你保证,我们始终着眼于长远发展,而这次的变更就是其中的一部分。
如果我们看到更多问题,会在上面继续添加,以期减少混淆。
[HUMBLE.] 为未来而构建真是令人兴奋。Elasticsearch 回归开源。万岁!这真是一件美妙的事情。今天真是美好的一天。
Forever :elasticheart: Open Source
Shay 2024-08-30
---
原文地址:https://www.elastic.co/blog/el ... gain/
社区热评
Elasticsearch 再次回归开源的消息迅速引发了技术社区的广泛关注。这不仅是 Elastic 对自身开源信念的重申,也是其在激烈市场竞争中精心策划的一次战略调整。
三年前,Elastic 因与 AWS 的市场竞争而选择更改许可协议,这一决定在当时引发了不小的争议。尽管如此,事实证明,这一策略有效地减少了市场上的混淆,也为 Elastic 与 AWS 的合作奠定了更坚实的基础。如今,Elastic 再度选择开源,并新增 AGPL 作为许可选项,这一举措无疑展现了 Elastic 在市场中更加成熟的定位和对未来发展的自信。
这一变化不仅仅是一个公司的商业决策,更是开源生态系统的一次重要信号。Elastic 的回归开源,传递出一个明确的信息:即使在商业竞争中,开源仍然是企业实现长远发展的重要路径。随着这一决定的落地,其他软件公司可能也会重新审视自身的许可策略,推动更多开源项目的发展与创新。
此外,Elastic 选择 AGPL 作为新许可选项,也显示出其对开源生态未来走向的深刻洞察。AGPL 的引入,表明 Elastic 希望在开源社区中保持灵活性和多样性,同时推动整个行业向更加开放和透明的方向迈进。
总体而言,Elastic 重返开源的举动,不仅意在巩固其在开源社区中的地位,也为行业树立了一个新的标杆。这一事件无疑将成为开源软件发展史上的重要篇章,未来可能会激发更多企业重新考虑其开源战略,进而推动整个技术行业的进一步繁荣与进步。
让我们拭目以待!
活动回顾 - 第3期 搜索客 Meetup 线上直播活动圆满结束,附 PPT 下载
活动 • searchkit 发表了文章 • 0 个评论 • 3022 次浏览 • 2024-08-29 17:30
2024 年 8 月 28 日,由搜索客社区和极限科技(INFINI Labs)联合举办的第 3 期线上 Meetup 技术交流直播活动圆满结束。本期 Meetup 直播活动吸引了超过 700+ 人次的技术爱好者参与,共同学习和交流了 Elasticsearch 源码结构、写入和查询流程等。
主题:Elasticsearch 的代码结构和写入查询流程的解读 - 下篇
本期 Meetup 活动由极限科技搜索引擎研发负责人 张磊老师 为大家带来了主题为《Elasticsearch 的代码结构和写入查询流程的解读 - 下篇》精彩分享。
张磊老师首先对上期的 ES 源码结构、写入流程等内容进行了简单的回顾,然后着重深入讲解了 ES 的查询搜索流程,从客户端发送搜索请求->协调节点解析请求->分片路由->分片查询->结果合并等,同时结合 ES 源代码进行 Debug 演示,通过 Debug 断点调试详细的为大家展示了 ES 方法调用级别的查询执行流程。以下为摘取分享内容部分截图:
同时,在整个直播过程中,主持人进行了多轮激动人心的抽奖活动,为参会小伙伴带来了额外的惊喜,将活动气氛推向了高潮。
本期 Meetup 旨在为 ES 初学者和有经验的用户提供深入见解,随着活动的圆满结束,参会小伙伴们不仅收获和提升在 ES 使用和开发方面的能力,还共同推动了技术的进步和社区的发展。
最后感谢大家的参与和支持,让我们共同期待下一次 搜索客 Meetup 活动带来更多的精彩内容!
本期 Meetup 的 PPT 下载
本期 PPT 下载的链接:[https://searchkit.cn/slides/327](https://searchkit.cn/slides/327)
本期 Meetup 视频回放
扫码关注极限实验室视频号查看直播回放,或者扫码关注极限实验室 B 站 账号,可查看本期 Meetup 活动视频。我们也会在视频号、B 站持续更新最新技术视频,欢迎通过点赞、投币,收藏,三连来支持我们。
![](https://searchkit.cn/uploads/a ... 44.png)
Meetup 活动讲师招募
![讲师招募](https://infinilabs.cn/img/blog ... ng.png)
搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。
讲师报名链接:[http://cfp.searchkit.cn](http://cfp.searchkit.cn)
或扫描下方二维码,立刻报名成为讲师!
![](https://searchkit.cn/uploads/a ... fe.png)
Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。
我们热切期待您的精彩分享!
往期回顾
- [【第2期】2024 搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 上篇](https://mp.weixin.qq.com/s/oQNej6aDMzLp64_AKxSONw)
- [【第1期】2024 搜索客 Meetup | Easysearch 结合大模型实现 RAG](https://mp.weixin.qq.com/s/7fpPFGKltJASspmIaUqJMg)
关于 搜索客(SearchKit)社区
搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级,以新的 Slogan:“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等,为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。社区官网:[https://searchkit.cn](https://searchkit.cn) 。
关于极限科技(INFINI Labs)
![INFINI Labs](https://infinilabs.cn/img/blog ... bs.png)
极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
官网:[https://infinilabs.cn](https://infinilabs.cn)
【搜索客社区日报】第1890期 (2024-08-29)
社区日报 • Se7en 发表了文章 • 0 个评论 • 2935 次浏览 • 2024-08-29 13:22
https://mp.weixin.qq.com/s/p-muCZMhXjJ9XQgKxxYiqg
2.iLogtail 开源两周年:感恩遇见,畅想未来
https://mp.weixin.qq.com/s/RoFjoYlPLG1yOzDGc7vqIQ
3.讲真,OpenObserve 挺好用的!
https://mp.weixin.qq.com/s/pNliVYhA9-aYaxubPJ9FMg
4.B站监控2.0架构落地实践
https://mp.weixin.qq.com/s/dWH4csu4B2c5SaRj3Mmtew
编辑:Se7en
更多资讯:http://news.searchkit.cn