怎么又是你

【搜索客社区日报】第1911期 (2024-10-11)

1、文盘rust--使用 Rust 构建RAG
https://mp.weixin.qq.com/s/w_ZPPBMuN1QiWN9p8TBAbg

2、如何利用 Milvus 实现多模态搜索
https://mp.weixin.qq.com/s/w_ZPPBMuN1QiWN9p8TBAbg

3、优化查询性能:OpenSearch 索引请求缓存的实现
https://opensearch.org/blog/un ... ache/

4、【老杨玩搜索】4. Easysearch 精确搜索 | 从零开始实现页面搜索功能
https://www.bilibili.com/video/BV1UD421T7YZ/

5、腾讯云AI代码助手评测:如何智能高效完成Go语言Web项目开发
https://blog.csdn.net/qq_44866 ... 14860

编辑:Fred
更多资讯:http://news.searchkit.cn
继续阅读 »
1、文盘rust--使用 Rust 构建RAG
https://mp.weixin.qq.com/s/w_ZPPBMuN1QiWN9p8TBAbg

2、如何利用 Milvus 实现多模态搜索
https://mp.weixin.qq.com/s/w_ZPPBMuN1QiWN9p8TBAbg

3、优化查询性能:OpenSearch 索引请求缓存的实现
https://opensearch.org/blog/un ... ache/

4、【老杨玩搜索】4. Easysearch 精确搜索 | 从零开始实现页面搜索功能
https://www.bilibili.com/video/BV1UD421T7YZ/

5、腾讯云AI代码助手评测:如何智能高效完成Go语言Web项目开发
https://blog.csdn.net/qq_44866 ... 14860

编辑:Fred
更多资讯:http://news.searchkit.cn 收起阅读 »

【搜索客社区日报】第1910期 (2024-10-10)

1.用模拟和真实的 Elasticsearch 测试 Java 代码
https://www.elastic.co/search- ... earch
2.使用 LLM 自动化传统搜索
https://www.elastic.co/search- ... asets
3.蚂蚁 CodeFuse 代码大模型技术解析:基于全仓库上下文的代码补全
https://mp.weixin.qq.com/s/ED26YLvpA-kCIf6lCnTy6w

编辑:Se7en  
更多资讯:http://news.searchkit.cn
继续阅读 »
1.用模拟和真实的 Elasticsearch 测试 Java 代码
https://www.elastic.co/search- ... earch
2.使用 LLM 自动化传统搜索
https://www.elastic.co/search- ... asets
3.蚂蚁 CodeFuse 代码大模型技术解析:基于全仓库上下文的代码补全
https://mp.weixin.qq.com/s/ED26YLvpA-kCIf6lCnTy6w

编辑:Se7en  
更多资讯:http://news.searchkit.cn 收起阅读 »

极限科技(INFINI Labs)招聘:搜索运维工程师(Elasticsearch/Easysearch)【北京/全职】

20240928-180457.png

我们是国内搜索型数据库产品厂商第一梯队的杰出代表,随着业务的快速发展,现开放岗位:搜索运维工程师( Elasticsearch/Easysearch ),如果有兴趣,请直接拉到文末,扫描二维码或将简历投递至 hello@infini.ltd。

如果您还不了解 极限科技(INFINI Labs)是谁,在做什么,需要什么样的小伙伴,那么请看下文:

我们是谁

INFINI Labs

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

官网:https://infinilabs.cn

我们在做什么

极限科技(INFINI Labs)正在致力于以下几个核心方向:

1、开发近实时搜索引擎 INFINI Easysearch

INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。详情参见:https://infinilabs.cn

2、打造下一代实时搜索引擎 INFINI Pizza

INFINI Pizza 是一个分布式混合搜索数据库系统。我们的使命是充分利用现代硬件和人工智能的潜力,为企业提供量身定制的实时智能搜索体验。我们致力于满足具有挑战性的环境中高并发和高吞吐量的需求,同时提供无缝高效的搜索功能。详情参见:https://pizza.rs

3、积极参与全球开源生态建设

通过开源项目和社区贡献,推动全球开源技术的发展,提升中国在全球开源领域的影响力。

4、提供专业服务

为客户提供包括搜索技术支持、迁移服务、定制解决方案和培训在内的全方位服务。

5、提供国产化搜索解决方案

针对中国市场的特殊需求,提供符合国产化标准的搜索产品和解决方案,帮助客户解决使用 Elasticsearch 时遇到的挑战。

极限科技(INFINI Labs)通过这些努力,旨在成为全球领先的实时搜索和数据分析解决方案提供商。

我们期待有才华、有激情的你加入我们,一起探索数据搜索的未来,共同创造无限可能!

在招岗位介绍

岗位名称

搜索运维工程师(Elasticsearch/Easysearch)

岗位职责

  1. 负责客户现场的 Elasticsearch/Easysearch/OpenSearch 搜索引擎集群的日常维护、监控和优化,确保集群的高可用性和性能稳定;
  2. 协助客户进行搜索引擎集群的部署、配置及版本升级;
  3. 排查和解决 Elasticsearch/Easysearch/OpenSearch 集群中的各种技术问题,及时响应并处理集群异常;
  4. 根据业务需求设计和实施搜索索引的调优、数据迁移和扩展方案;
  5. 负责与客户沟通,提供技术支持及相关培训,确保客户需求得到有效满足;
  6. 制定并实施搜索引擎的备份、恢复和安全策略,保障数据安全;
  7. 与内部研发团队和外部客户进行协作,推动集群性能改进和功能优化。

岗位要求

  1. 全日制本科及以上学历,5 年以上运维工作经验;
  2. 拥有 Elasticsearch/Easysearch/OpenSearch 使用经验,熟悉搜索引擎的原理、架构和相关生态工具(如 Logstash、Kibana 等);
  3. 熟悉 Linux 操作系统的使用及常见性能调优方法;
  4. 熟练掌握 Shell 或 Python 等至少一种脚本语言,能够编写自动化运维脚本;
  5. 具有优秀的问题分析与解决能力,能够快速应对突发情况;
  6. 具备良好的沟通能力和团队合作精神,能够接受 客户驻场工作;
  7. 全职,北京地区,需具备在北京长期工作的条件;

优先考虑

  • 计算机科学、信息技术或相关专业;
  • 具备丰富的大规模分布式系统运维经验;
  • 熟悉 Elasticsearch/Easysearch/OpenSearch 分片、路由、查询优化等高级功能;
  • 拥有 Elastic Certified Engineer 认证;
  • 具备大规模搜索引擎集群设计、扩展和调优经验;
  • 熟悉其他搜索引擎技术(如 Solr、Lucene)者优先 ;
  • 熟悉大数据处理相关技术(比如: Kafka 、Flink 等)者优先。

福利待遇

  • 月薪: 15K - 25K,具体根据能力而定,试用期为 3-6 个月;
  • 福利:五险一金/双休/国内法定假日/带薪年假等;

简历投递

简历投递:hello@infini.ltd(邮件标题请备注姓名+求职岗位+来自搜索客社区)
微信联系:INFINI-Labs(加微请备注求职岗位+来自搜索客社区)

欢迎有兴趣的小伙伴联系或推荐,期待您的加入!

联系我们

继续阅读 »

20240928-180457.png

我们是国内搜索型数据库产品厂商第一梯队的杰出代表,随着业务的快速发展,现开放岗位:搜索运维工程师( Elasticsearch/Easysearch ),如果有兴趣,请直接拉到文末,扫描二维码或将简历投递至 hello@infini.ltd。

如果您还不了解 极限科技(INFINI Labs)是谁,在做什么,需要什么样的小伙伴,那么请看下文:

我们是谁

INFINI Labs

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

官网:https://infinilabs.cn

我们在做什么

极限科技(INFINI Labs)正在致力于以下几个核心方向:

1、开发近实时搜索引擎 INFINI Easysearch

INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。详情参见:https://infinilabs.cn

2、打造下一代实时搜索引擎 INFINI Pizza

INFINI Pizza 是一个分布式混合搜索数据库系统。我们的使命是充分利用现代硬件和人工智能的潜力,为企业提供量身定制的实时智能搜索体验。我们致力于满足具有挑战性的环境中高并发和高吞吐量的需求,同时提供无缝高效的搜索功能。详情参见:https://pizza.rs

3、积极参与全球开源生态建设

通过开源项目和社区贡献,推动全球开源技术的发展,提升中国在全球开源领域的影响力。

4、提供专业服务

为客户提供包括搜索技术支持、迁移服务、定制解决方案和培训在内的全方位服务。

5、提供国产化搜索解决方案

针对中国市场的特殊需求,提供符合国产化标准的搜索产品和解决方案,帮助客户解决使用 Elasticsearch 时遇到的挑战。

极限科技(INFINI Labs)通过这些努力,旨在成为全球领先的实时搜索和数据分析解决方案提供商。

我们期待有才华、有激情的你加入我们,一起探索数据搜索的未来,共同创造无限可能!

在招岗位介绍

岗位名称

搜索运维工程师(Elasticsearch/Easysearch)

岗位职责

  1. 负责客户现场的 Elasticsearch/Easysearch/OpenSearch 搜索引擎集群的日常维护、监控和优化,确保集群的高可用性和性能稳定;
  2. 协助客户进行搜索引擎集群的部署、配置及版本升级;
  3. 排查和解决 Elasticsearch/Easysearch/OpenSearch 集群中的各种技术问题,及时响应并处理集群异常;
  4. 根据业务需求设计和实施搜索索引的调优、数据迁移和扩展方案;
  5. 负责与客户沟通,提供技术支持及相关培训,确保客户需求得到有效满足;
  6. 制定并实施搜索引擎的备份、恢复和安全策略,保障数据安全;
  7. 与内部研发团队和外部客户进行协作,推动集群性能改进和功能优化。

岗位要求

  1. 全日制本科及以上学历,5 年以上运维工作经验;
  2. 拥有 Elasticsearch/Easysearch/OpenSearch 使用经验,熟悉搜索引擎的原理、架构和相关生态工具(如 Logstash、Kibana 等);
  3. 熟悉 Linux 操作系统的使用及常见性能调优方法;
  4. 熟练掌握 Shell 或 Python 等至少一种脚本语言,能够编写自动化运维脚本;
  5. 具有优秀的问题分析与解决能力,能够快速应对突发情况;
  6. 具备良好的沟通能力和团队合作精神,能够接受 客户驻场工作;
  7. 全职,北京地区,需具备在北京长期工作的条件;

优先考虑

  • 计算机科学、信息技术或相关专业;
  • 具备丰富的大规模分布式系统运维经验;
  • 熟悉 Elasticsearch/Easysearch/OpenSearch 分片、路由、查询优化等高级功能;
  • 拥有 Elastic Certified Engineer 认证;
  • 具备大规模搜索引擎集群设计、扩展和调优经验;
  • 熟悉其他搜索引擎技术(如 Solr、Lucene)者优先 ;
  • 熟悉大数据处理相关技术(比如: Kafka 、Flink 等)者优先。

福利待遇

  • 月薪: 15K - 25K,具体根据能力而定,试用期为 3-6 个月;
  • 福利:五险一金/双休/国内法定假日/带薪年假等;

简历投递

简历投递:hello@infini.ltd(邮件标题请备注姓名+求职岗位+来自搜索客社区)
微信联系:INFINI-Labs(加微请备注求职岗位+来自搜索客社区)

欢迎有兴趣的小伙伴联系或推荐,期待您的加入!

联系我们

收起阅读 »

【搜索客社区日报】第1907期 (2024-09-26)

1.万字实践教程,全面入门 Coze 工作流|用 Coze 打造 AI 精读专家,复刻 10 万粉公众号的创作生产力
https://mp.weixin.qq.com/s/r40BDHKq8NC547cehAzOzw
2.Awesome-LLMOps
https://github.com/InftyAI/Awesome-LLMOps
3.人工智能影响下,那些多集群赛道上的新课题
https://mp.weixin.qq.com/s/IM-kn55hYz1yLbUEDfGCRQ
4.打造一个 Cursor 只需要三步
https://mp.weixin.qq.com/s/wgwBoC3DMtulacau47Dgww
5.漫谈两轮调度ES优化之路
https://mp.weixin.qq.com/s/--U3HxcHvo2PsyztoC585A

编辑:Se7en  
更多资讯:http://news.searchkit.cn
继续阅读 »
1.万字实践教程,全面入门 Coze 工作流|用 Coze 打造 AI 精读专家,复刻 10 万粉公众号的创作生产力
https://mp.weixin.qq.com/s/r40BDHKq8NC547cehAzOzw
2.Awesome-LLMOps
https://github.com/InftyAI/Awesome-LLMOps
3.人工智能影响下,那些多集群赛道上的新课题
https://mp.weixin.qq.com/s/IM-kn55hYz1yLbUEDfGCRQ
4.打造一个 Cursor 只需要三步
https://mp.weixin.qq.com/s/wgwBoC3DMtulacau47Dgww
5.漫谈两轮调度ES优化之路
https://mp.weixin.qq.com/s/--U3HxcHvo2PsyztoC585A

编辑:Se7en  
更多资讯:http://news.searchkit.cn 收起阅读 »

【搜索客社区日报】第1908期 (2024-09-27)

1、百度搜索结果波动的极致治理
https://my.oschina.net/u/4939618/blog/16007111

2、拆解SearchGPT后,我们发现了AI搜索的壁垒、突破和未来
https://mp.weixin.qq.com/s/5IhhFOOts92xrfenO15A9Q

3、【老杨玩搜索】3. Easysearch 全文检索 | 从零开始实现页面搜索功能
https://www.bilibili.com/video/BV16T42127pX/

4、再见 esdsl,搜索引擎 elasticsearch 通用表达式搜索
https://blog.csdn.net/szlhj/ar ... 25091

5、对话世界级编程大师 Bob 大叔:当机器像人一样思考,编程技巧将会过时,技术迎来奇点...
https://blog.csdn.net/dQCFKyQD ... 24818

编辑:Fred
更多资讯:http://news.searchkit.cn
继续阅读 »
1、百度搜索结果波动的极致治理
https://my.oschina.net/u/4939618/blog/16007111

2、拆解SearchGPT后,我们发现了AI搜索的壁垒、突破和未来
https://mp.weixin.qq.com/s/5IhhFOOts92xrfenO15A9Q

3、【老杨玩搜索】3. Easysearch 全文检索 | 从零开始实现页面搜索功能
https://www.bilibili.com/video/BV16T42127pX/

4、再见 esdsl,搜索引擎 elasticsearch 通用表达式搜索
https://blog.csdn.net/szlhj/ar ... 25091

5、对话世界级编程大师 Bob 大叔:当机器像人一样思考,编程技巧将会过时,技术迎来奇点...
https://blog.csdn.net/dQCFKyQD ... 24818

编辑:Fred
更多资讯:http://news.searchkit.cn 收起阅读 »

活动回顾 - 第4期 搜索客 Meetup 线上直播活动圆满结束,附视频回放

2024 年 9 月 25 日,由搜索客社区和极限科技(INFINI Labs)联合举办的第 4 期线上 Meetup 技术交流直播活动圆满结束。感谢 INFINI Labs 的设计团队负责人邹稳安老师带来的精彩分享,同时感谢社区小伙伴的热情参与!

PPT封面.png

主题:借助 ChatGPT 和 SVG 搞定 INFINI Pizza 首页动效

本期 Meetup 活动的分享嘉宾来自极限科技设计团队负责人邹稳安老师,他从设计师的角度出发,探讨如何在零编程基础下,借助 ChatGPT 和 SVG,搞定 INFINI Pizza 首页动效,从设计到实现,探索 AI 的更多玩法。同时结合 Demo 实操演示,为大家展示了怎么根据需求快速实现 SVG 动画效果。

INFINI Pizza (https://pizza.rs)首页动画效果如图所示:

以下为摘取分享内容部分截图:

1.jpg

2.jpg

3.jpg

同时,在整个直播过程中,主持人进行了多轮激动人心的抽奖活动,为参会小伙伴带来了额外的惊喜,将活动气氛推向了高潮。

最后再次感谢大家的参与和支持,让我们共同期待下一次 搜索客 Meetup 活动带来更多的精彩内容!

本期 Meetup 视频回放

扫码关注极限实验室视频号查看直播回放,或者扫码关注极限实验室 B 站 账号,可查看本期 Meetup 活动视频。我们也会在视频号、B 站持续更新最新技术视频,欢迎通过点赞、投币,收藏,三连来支持我们。

Meetup 活动讲师招募

讲师招募

搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。

讲师报名链接:http://cfp.searchkit.cn
或扫描下方二维码,立刻报名成为讲师!

Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、RAG 与向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。

我们热切期待您的精彩分享!

往期回顾

关于 搜索客(SearchKit)社区

搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级,以新的 Slogan:“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等,为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。社区官网:https://searchkit.cn

关于极限科技(INFINI Labs)

INFINI Labs

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

官网:https://infinilabs.cn

继续阅读 »

2024 年 9 月 25 日,由搜索客社区和极限科技(INFINI Labs)联合举办的第 4 期线上 Meetup 技术交流直播活动圆满结束。感谢 INFINI Labs 的设计团队负责人邹稳安老师带来的精彩分享,同时感谢社区小伙伴的热情参与!

PPT封面.png

主题:借助 ChatGPT 和 SVG 搞定 INFINI Pizza 首页动效

本期 Meetup 活动的分享嘉宾来自极限科技设计团队负责人邹稳安老师,他从设计师的角度出发,探讨如何在零编程基础下,借助 ChatGPT 和 SVG,搞定 INFINI Pizza 首页动效,从设计到实现,探索 AI 的更多玩法。同时结合 Demo 实操演示,为大家展示了怎么根据需求快速实现 SVG 动画效果。

INFINI Pizza (https://pizza.rs)首页动画效果如图所示:

以下为摘取分享内容部分截图:

1.jpg

2.jpg

3.jpg

同时,在整个直播过程中,主持人进行了多轮激动人心的抽奖活动,为参会小伙伴带来了额外的惊喜,将活动气氛推向了高潮。

最后再次感谢大家的参与和支持,让我们共同期待下一次 搜索客 Meetup 活动带来更多的精彩内容!

本期 Meetup 视频回放

扫码关注极限实验室视频号查看直播回放,或者扫码关注极限实验室 B 站 账号,可查看本期 Meetup 活动视频。我们也会在视频号、B 站持续更新最新技术视频,欢迎通过点赞、投币,收藏,三连来支持我们。

Meetup 活动讲师招募

讲师招募

搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。

讲师报名链接:http://cfp.searchkit.cn
或扫描下方二维码,立刻报名成为讲师!

Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、RAG 与向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。

我们热切期待您的精彩分享!

往期回顾

关于 搜索客(SearchKit)社区

搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级,以新的 Slogan:“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等,为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。社区官网:https://searchkit.cn

关于极限科技(INFINI Labs)

INFINI Labs

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

官网:https://infinilabs.cn

收起阅读 »

【搜索客社区日报】第1904期 (2024-09-23)

1、偷梁换柱:国产数据库如何防范误写入?
https://www.modb.pro/db/182281 ... ex_ai

2、Elasticsearch——使用Java API实现ES中的索引、映射、文档操作
https://blog.csdn.net/weixin_4 ... 30308

3、Elasticsearch大文件检索性能提升20倍实践(干货)
https://developer.aliyun.com/article/707744

4、MoE新里程碑:腾讯混元团队提出混合异构专家模型,性能显著提升
https://blog.csdn.net/csdnnews ... .5928

5、Elasticsearch 教程
https://www.geeksforgeeks.org/ ... rial/

编辑:Muse
更多资讯:http://news.searchkit.cn
继续阅读 »
1、偷梁换柱:国产数据库如何防范误写入?
https://www.modb.pro/db/182281 ... ex_ai

2、Elasticsearch——使用Java API实现ES中的索引、映射、文档操作
https://blog.csdn.net/weixin_4 ... 30308

3、Elasticsearch大文件检索性能提升20倍实践(干货)
https://developer.aliyun.com/article/707744

4、MoE新里程碑:腾讯混元团队提出混合异构专家模型,性能显著提升
https://blog.csdn.net/csdnnews ... .5928

5、Elasticsearch 教程
https://www.geeksforgeeks.org/ ... rial/

编辑:Muse
更多资讯:http://news.searchkit.cn 收起阅读 »

搜索客社区日报 第1906期 (2024-09-25)

1.Elasticsearch:检索增强生成背后的重要思想
https://blog.csdn.net/UbuntuTo ... 82995
2.RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
https://mp.weixin.qq.com/s/DddpD6wgD_PHy8mZ2jND8Q
3.Elasticsearch 完整格式的 URL 进行分词,有什么好的解决方案吗?
https://mp.weixin.qq.com/s/YTZxDQOKB4jKZDwOB84hiw

编辑:kin122 
更多资讯:http://news.searchkit.cn
继续阅读 »
1.Elasticsearch:检索增强生成背后的重要思想
https://blog.csdn.net/UbuntuTo ... 82995
2.RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
https://mp.weixin.qq.com/s/DddpD6wgD_PHy8mZ2jND8Q
3.Elasticsearch 完整格式的 URL 进行分词,有什么好的解决方案吗?
https://mp.weixin.qq.com/s/YTZxDQOKB4jKZDwOB84hiw

编辑:kin122 
更多资讯:http://news.searchkit.cn
收起阅读 »

【搜索客社区日报】第1905期 (2024-09-24)

1. 我打开Camel,这数据进入ES嗖嗖的(需要梯子)
https://www.elastic.co/search- ... -data
2. 为啥你们几个在一起能组成著名的ELKB?(需要梯子)
https://medium.com/%40amitvsol ... b82be
 
3. 靓仔,会不会在Linux上装logstash?(需要梯子)
https://medium.com/%40yago82/c ... b77e8
 
编辑:斯蒂文
更多资讯:http://news.searchkit.cn

 
继续阅读 »
1. 我打开Camel,这数据进入ES嗖嗖的(需要梯子)
https://www.elastic.co/search- ... -data
2. 为啥你们几个在一起能组成著名的ELKB?(需要梯子)
https://medium.com/%40amitvsol ... b82be
 
3. 靓仔,会不会在Linux上装logstash?(需要梯子)
https://medium.com/%40yago82/c ... b77e8
 
编辑:斯蒂文
更多资讯:http://news.searchkit.cn

  收起阅读 »

【搜索客社区日报】第1903期 (2024-09-20)

1、OpenSearch:混合搜索中的排名规范化概述
https://opensearch.org/blog/Ho ... arch/

2、一网打尽!处理 Elasticsearch 中未分配的分片问题(附完整 DSL 示例)
https://mp.weixin.qq.com/s/NUyQk_2LUITJG19YXf1WoQ

3、【老杨玩搜索】2. Easysearch 增删改查 | 从零开始实现页面搜索功能
https://www.bilibili.com/video/BV12M4m1S7H4/

4、RankRAG指令微调框架:让LLM在检索增强任务中更高效
https://mp.weixin.qq.com/s/FqUNHygaCIuQmeLxYRqyHw

5、编程语言之争:Rust 社区活跃开发者 Ed Page 谈 Rust 与 C++ 的未来
https://blog.csdn.net/GOSIM202 ... 36175

编辑:Fred
更多资讯:http://news.searchkit.cn
继续阅读 »
1、OpenSearch:混合搜索中的排名规范化概述
https://opensearch.org/blog/Ho ... arch/

2、一网打尽!处理 Elasticsearch 中未分配的分片问题(附完整 DSL 示例)
https://mp.weixin.qq.com/s/NUyQk_2LUITJG19YXf1WoQ

3、【老杨玩搜索】2. Easysearch 增删改查 | 从零开始实现页面搜索功能
https://www.bilibili.com/video/BV12M4m1S7H4/

4、RankRAG指令微调框架:让LLM在检索增强任务中更高效
https://mp.weixin.qq.com/s/FqUNHygaCIuQmeLxYRqyHw

5、编程语言之争:Rust 社区活跃开发者 Ed Page 谈 Rust 与 C++ 的未来
https://blog.csdn.net/GOSIM202 ... 36175

编辑:Fred
更多资讯:http://news.searchkit.cn 收起阅读 »

【第4期】搜索客 Meetup | INFINI Pizza 网站 SVG 动画这么炫,我教你啊!

本次 Meetup 活动由 搜索客社区、极限科技(INFINI Labs)联合举办,活动主题将从设计师的角度出发,探讨如何在零编程基础下,借助 ChatGPT 和 SVG,搞定 INFINI Pizza 首页动效,从设计到实现,探索 AI 的更多玩法。欢迎大家预约报名参加和交流。

活动主题:INFINI Pizza 网站 SVG 动画这么炫,我教你啊!
活动时间:2024 年 9 月 25 日 19:00-20:00(周三)
活动形式:微信视频号(极限实验室)直播
报名方式:关注或扫码海报中的二维码进行预约

嘉宾介绍

邹稳安,拥有多年 UI/UE 设计经验。现任极限科技设计团队负责人,负责公司产品、UI 设计,致力于通过设计提升用户体验。

主题摘要

什么?一个设计师,让我干前端的活?

当前端工程师无法及时接手项目时,设计师能否独立完成网页动效?本次 Meetup 将分享设计师如何在零编程基础下,借助 ChatGPT 和 SVG,搞定 INFINI Pizza 首页动效。从设计到实现,探索 AI 的更多玩法。

图:Pizza 官网(https://pizza.rs)首页动画效果

参与有奖

本次直播活动将设有福袋抽奖环节,参与就有机会获得 INFINI Labs 周边纪念品,包括 T 恤、鸭舌帽、咖啡杯、指甲刀套件等等(图片仅供参考,款式、颜色与尺码随机)。

活动交流

本活动设有 Meetup 技术交流群,可添加小助手微信拉群,与更多小伙伴一起学习交流。

Meetup 讲师招募

搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。

讲师报名链接:http://cfp.searchkit.cn
或扫描下方二维码,立刻报名成为讲师!

Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。

我们热切期待您的精彩分享!

往期回顾

  1. 【第 3 期】搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 下篇
  2. 【第 2 期】搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 上篇
  3. 【第 1 期】搜索客 Meetup | Easysearch 结合大模型实现 RAG

关于 搜索客(SearchKit)社区

搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级,以新的 Slogan:“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等,为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。

社区官网:https://searchkit.cn

继续阅读 »

本次 Meetup 活动由 搜索客社区、极限科技(INFINI Labs)联合举办,活动主题将从设计师的角度出发,探讨如何在零编程基础下,借助 ChatGPT 和 SVG,搞定 INFINI Pizza 首页动效,从设计到实现,探索 AI 的更多玩法。欢迎大家预约报名参加和交流。

活动主题:INFINI Pizza 网站 SVG 动画这么炫,我教你啊!
活动时间:2024 年 9 月 25 日 19:00-20:00(周三)
活动形式:微信视频号(极限实验室)直播
报名方式:关注或扫码海报中的二维码进行预约

嘉宾介绍

邹稳安,拥有多年 UI/UE 设计经验。现任极限科技设计团队负责人,负责公司产品、UI 设计,致力于通过设计提升用户体验。

主题摘要

什么?一个设计师,让我干前端的活?

当前端工程师无法及时接手项目时,设计师能否独立完成网页动效?本次 Meetup 将分享设计师如何在零编程基础下,借助 ChatGPT 和 SVG,搞定 INFINI Pizza 首页动效。从设计到实现,探索 AI 的更多玩法。

图:Pizza 官网(https://pizza.rs)首页动画效果

参与有奖

本次直播活动将设有福袋抽奖环节,参与就有机会获得 INFINI Labs 周边纪念品,包括 T 恤、鸭舌帽、咖啡杯、指甲刀套件等等(图片仅供参考,款式、颜色与尺码随机)。

活动交流

本活动设有 Meetup 技术交流群,可添加小助手微信拉群,与更多小伙伴一起学习交流。

Meetup 讲师招募

搜索客社区 Meetup 的成功举办,离不开社区小伙伴的热情参与。目前社区讲师招募计划也在持续进行中,我们诚挚邀请各位技术大咖、行业精英踊跃提交演讲议题,与大家分享您的经验。

讲师报名链接:http://cfp.searchkit.cn
或扫描下方二维码,立刻报名成为讲师!

Meetup 活动聚焦 AI 与搜索领域的最新动态,以及数据实时搜索分析、向量检索、技术实践与案例分析、日志分析、安全等领域的深度探讨。

我们热切期待您的精彩分享!

往期回顾

  1. 【第 3 期】搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 下篇
  2. 【第 2 期】搜索客 Meetup | Elasticsearch 的代码结构和写入查询流程的解读 - 上篇
  3. 【第 1 期】搜索客 Meetup | Easysearch 结合大模型实现 RAG

关于 搜索客(SearchKit)社区

搜索客社区由 Elasticsearch 中文社区进行全新的品牌升级,以新的 Slogan:“搜索人自己的社区” 为宣言。汇集搜索领域最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等,为广大搜索领域从业者提供更为丰富便捷的学习和交流平台。

社区官网:https://searchkit.cn

收起阅读 »

【搜索客社区日报】第1902期 (2024-09-19)

1.Multimodal RAG: Chat with Videos
https://learn.deeplearning.ai/ ... ideos
2.Qwen2.5感觉成了,热泪眼眶
https://mp.weixin.qq.com/s/nGhkIyelt5OdwSUGx7FQcg
3.SiliconCloud上线Flux.1:文生图比肩MJ v6,免费尝鲜
https://mp.weixin.qq.com/s/zyg3wDPMaLPwac_UYjB6uQ
4.如何在MindSearch中集成新的搜索API,全面提升智能搜索能力!https://mp.weixin.qq.com/s/jCe5ii1TO88tEtsYDOYo9w

编辑:Se7en  
更多资讯:http://news.searchkit.cn
继续阅读 »
1.Multimodal RAG: Chat with Videos
https://learn.deeplearning.ai/ ... ideos
2.Qwen2.5感觉成了,热泪眼眶
https://mp.weixin.qq.com/s/nGhkIyelt5OdwSUGx7FQcg
3.SiliconCloud上线Flux.1:文生图比肩MJ v6,免费尝鲜
https://mp.weixin.qq.com/s/zyg3wDPMaLPwac_UYjB6uQ
4.如何在MindSearch中集成新的搜索API,全面提升智能搜索能力!https://mp.weixin.qq.com/s/jCe5ii1TO88tEtsYDOYo9w

编辑:Se7en  
更多资讯:http://news.searchkit.cn 收起阅读 »

【第3期】INFINI Easysearch 免费认证培训开放报名

20240913-144305.png

探索 Easysearch 的无限可能,与 INFINI Labs 共赴搜索技术前沿!

随着数字化转型的加速,搜索技术已成为企业数据洞察的核心。INFINI Labs 作为搜索创新技术的引领者,诚邀所有对 Easysearch 搜索引擎感兴趣的开发者、技术爱好者及合作伙伴,参加我们即将于 2024 年 10 月 19 日至 20 日举办的第 3 期 Easysearch 线上免费培训活动。这不仅是一场知识的盛宴,更是技能提升的加速器,将助您在职业道路上迈出坚实的一步!

活动亮点

  • 系统课程,全面深入:从 Easysearch 的基本概念到环境搭建,再到高级功能的实战应用,INFINI Labs 的技术专家将为您带来全面而深入的讲解,确保每位参与者都能收获满满。
  • 实战导向,解决痛点:课程设计紧贴实际需求,旨在帮助学员掌握 Easysearch 的核心技术,有效解决工作中的搜索需求和技术难题,让理论知识迅速转化为实践能力。
  • 认证证书,助力进阶:后期 INFINI Labs 将推出 Easysearch 认证考试。通过考试的学员将获得官方认证的 Easysearch 证书,为您的职业发展增添强力背书,开启职业生涯的新篇章。

培训时间

2024 年 10 月 19 日至 20 日(周六、周日)共两天,每天具体培训时间:

  • 上午 09:30 ~ 11:30
  • 下午 14:00 ~ 16:00

培训内容概览

第一阶段:初识 Easysearch

  • Easysearch 环境搭建与对比,了解其与 Elasticsearch 的差异;
  • 功能初探:身份验证、数据脱敏、权限控制等,全面掌握 Easysearch 的基础功能;
  • 容灾技术:兼容性验证、跨集群复制等,确保您的搜索服务稳定可靠;

第二阶段:Easysearch 高阶使用

  • 深度探析:性能压测、数据迁移、请求管理等,提升 Easysearch 的使用效率;
  • 高级功能:快照管理、可视化看板、告警功能等,让您的搜索服务更加智能;
  • 生态集成:Filebeat、Logstash、LangChain 等,轻松实现 Easysearch 与其他工具的集成;

参与方式

本次活动完全免费,名额有限,请尽快报名,同时微信扫码添加小助手进群(培训会议地址将在微信群公布),锁定您的学习席位!

扫码或点击 我要报名

报名

👉 立即行动:不要错过这次提升自我、与行业精英共成长的宝贵机会。让我们相聚云端,共同探索 Easysearch 的无限可能,开启技术进阶的新篇章!

参会提示

  • 培训内容涉及动手实践,请务必自备电脑(Windows 系统环境请提前安装好 Linux 虚拟机);
  • 请提前在 INFINI Labs 官网下载对应平台最新安装包(INFINI Easysearch、INFINI Gateway、INFINI Console);
  • 下载地址:https://infinilabs.cn/download

联系我们

如有任何疑问,欢迎通过微信添加 [小助手:INFINI-Labs] 与我们联系。

INFINI Labs 期待与您相约,共赴这场技术盛宴!

关于 Easysearch

Easysearch

Easysearch 是一个分布式的近实时搜索与分析引擎,基于开源的 Apache Lucene 构建。它旨在提供一个自主可控、轻量级的 Elasticsearch 可替代版本,并不断完善和支持更多的企业级功能。与 Elasticsearch 相比,Easysearch 更注重搜索业务场景的优化,同时保持其产品的简洁与易用性。

详情参见:Easysearch 介绍

关于极限科技(INFINI Labs)

INFINI Labs

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

官网:https://infinilabs.cn

继续阅读 »

20240913-144305.png

探索 Easysearch 的无限可能,与 INFINI Labs 共赴搜索技术前沿!

随着数字化转型的加速,搜索技术已成为企业数据洞察的核心。INFINI Labs 作为搜索创新技术的引领者,诚邀所有对 Easysearch 搜索引擎感兴趣的开发者、技术爱好者及合作伙伴,参加我们即将于 2024 年 10 月 19 日至 20 日举办的第 3 期 Easysearch 线上免费培训活动。这不仅是一场知识的盛宴,更是技能提升的加速器,将助您在职业道路上迈出坚实的一步!

活动亮点

  • 系统课程,全面深入:从 Easysearch 的基本概念到环境搭建,再到高级功能的实战应用,INFINI Labs 的技术专家将为您带来全面而深入的讲解,确保每位参与者都能收获满满。
  • 实战导向,解决痛点:课程设计紧贴实际需求,旨在帮助学员掌握 Easysearch 的核心技术,有效解决工作中的搜索需求和技术难题,让理论知识迅速转化为实践能力。
  • 认证证书,助力进阶:后期 INFINI Labs 将推出 Easysearch 认证考试。通过考试的学员将获得官方认证的 Easysearch 证书,为您的职业发展增添强力背书,开启职业生涯的新篇章。

培训时间

2024 年 10 月 19 日至 20 日(周六、周日)共两天,每天具体培训时间:

  • 上午 09:30 ~ 11:30
  • 下午 14:00 ~ 16:00

培训内容概览

第一阶段:初识 Easysearch

  • Easysearch 环境搭建与对比,了解其与 Elasticsearch 的差异;
  • 功能初探:身份验证、数据脱敏、权限控制等,全面掌握 Easysearch 的基础功能;
  • 容灾技术:兼容性验证、跨集群复制等,确保您的搜索服务稳定可靠;

第二阶段:Easysearch 高阶使用

  • 深度探析:性能压测、数据迁移、请求管理等,提升 Easysearch 的使用效率;
  • 高级功能:快照管理、可视化看板、告警功能等,让您的搜索服务更加智能;
  • 生态集成:Filebeat、Logstash、LangChain 等,轻松实现 Easysearch 与其他工具的集成;

参与方式

本次活动完全免费,名额有限,请尽快报名,同时微信扫码添加小助手进群(培训会议地址将在微信群公布),锁定您的学习席位!

扫码或点击 我要报名

报名

👉 立即行动:不要错过这次提升自我、与行业精英共成长的宝贵机会。让我们相聚云端,共同探索 Easysearch 的无限可能,开启技术进阶的新篇章!

参会提示

  • 培训内容涉及动手实践,请务必自备电脑(Windows 系统环境请提前安装好 Linux 虚拟机);
  • 请提前在 INFINI Labs 官网下载对应平台最新安装包(INFINI Easysearch、INFINI Gateway、INFINI Console);
  • 下载地址:https://infinilabs.cn/download

联系我们

如有任何疑问,欢迎通过微信添加 [小助手:INFINI-Labs] 与我们联系。

INFINI Labs 期待与您相约,共赴这场技术盛宴!

关于 Easysearch

Easysearch

Easysearch 是一个分布式的近实时搜索与分析引擎,基于开源的 Apache Lucene 构建。它旨在提供一个自主可控、轻量级的 Elasticsearch 可替代版本,并不断完善和支持更多的企业级功能。与 Elasticsearch 相比,Easysearch 更注重搜索业务场景的优化,同时保持其产品的简洁与易用性。

详情参见:Easysearch 介绍

关于极限科技(INFINI Labs)

INFINI Labs

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

官网:https://infinilabs.cn

收起阅读 »

【搜索客社区日报】第1901期 (2024-09-13)

1、大招憋出来了!OpenAI 发布最强推理模型 o1,它真的会思考,但 API 比 4o 贵好几倍
https://mp.weixin.qq.com/s/O7JjH182dyIP7bgSaYomBg

2、RankRAG 指令微调框架:让 LLM 在检索增强任务中更高效
https://mp.weixin.qq.com/s/FqUNHygaCIuQmeLxYRqyHw

3、如何用 Scrapy 爬取网站数据并在 Easysearch 中进行存储检索分析
https://mp.weixin.qq.com/s/8M0a3NbLvRJNyAepp1N_hA

4、【老杨玩搜索】1.Easysearch 安装 | 从零开始实现页面搜索功能
https://mp.weixin.qq.com/s/utLpCdaonOjpMucQ-k7CgA

编辑:Fred 
更多资讯:http://news.searchkit.cn
继续阅读 »
1、大招憋出来了!OpenAI 发布最强推理模型 o1,它真的会思考,但 API 比 4o 贵好几倍
https://mp.weixin.qq.com/s/O7JjH182dyIP7bgSaYomBg

2、RankRAG 指令微调框架:让 LLM 在检索增强任务中更高效
https://mp.weixin.qq.com/s/FqUNHygaCIuQmeLxYRqyHw

3、如何用 Scrapy 爬取网站数据并在 Easysearch 中进行存储检索分析
https://mp.weixin.qq.com/s/8M0a3NbLvRJNyAepp1N_hA

4、【老杨玩搜索】1.Easysearch 安装 | 从零开始实现页面搜索功能
https://mp.weixin.qq.com/s/utLpCdaonOjpMucQ-k7CgA

编辑:Fred 
更多资讯:http://news.searchkit.cn 收起阅读 »

如何用 Scrapy 爬取网站数据并在 Easysearch 中进行存储检索分析

做过数据分析和爬虫程序的小伙伴想必对 Scrapy 这个爬虫框架已经很熟悉了。今天给大家介绍下,如何基于 Scrapy 快速编写一个爬虫程序并利用 Easysearch 储存、检索、分析爬取的数据。我们以极限科技的官网 Blog 为数据源(https://infinilabs.cn/blog) ,做下实操演示。

1、安装 scrapy

使用 Scrapy 可以快速构建一个爬虫项目,从目标网站中获取所需的数据,并进行后续的处理和分析。

pip install scrapy

# 新建项目 infini_spiders
scrapy startproject infini_spiders

# 初始化爬虫
cd infini_spiders/spiders
scrapy genspider blog infinilabs.cn

2、爬虫编写

编写一个爬虫文件 blog.py ,它会首先访问 start_urls 指定的地址,将结果发给 parse 函数解析。通过这一步解析,我们得到了每一篇博客的地址。然后我们对每个博客的地址发送请求,将结果发给 parse_blog 函数进行解析,在这里才会真正提取每篇博客的 title、tag、url、date、content 内容。

from typing import Any, Iterable
import scrapy
from bs4 import BeautifulSoup
from scrapy.http import Response

class BlogSpider(scrapy.Spider):
    name = "blog"
    allowed_domains = ["infinilabs.cn"]
    start_urls = ["https://infinilabs.cn/blog/"]

    def parse(self, response):
        links = response.css("div.blogs a")
        yield from response.follow_all(links, self.parse_blog)

    def parse_blog(self, response):
        title = response.xpath('//div[@class="title"]/text()').extract_first()
        tags = response.xpath('//div[@class="tags"]/div[@class="tag"]/text()').extract()
        url = response.url
        author = response.xpath('//div[@class="logo"]/div[@class="name"]//text()').extract_first()
        date = response.xpath('//div[@class="date"]/text()').extract_first()
        all_text = response.xpath('//p//text() | //h3/text() | //h2/text() | //h4/text() | //ol/li//text()').extract()
        content = '\n'.join(all_text)

        yield {
            'title': title,
            'tags': tags,
            'url': url,
            'author': author,
            'date': date,
            'content': content
        }

提取完我们想要的内容后,接下来就要考虑存储了。考虑到要对内容进行检索、分析,接下来我们将内容直接存放到 Easysearch 当中。

3、安装插件

通过安装 ScrapyElasticsearch pipeline 可将 scrapy 爬取的内容存入到 Easysearch 中。

pip install ScrapyElasticSearch

修改 scrapy 自带的配置文件 settings.py ,添加以下内容。

ITEM_PIPELINES = {
    'scrapyelasticsearch.scrapyelasticsearch.ElasticSearchPipeline': 10
}

ELASTICSEARCH_SERVERS = ['http://192.168.56.3:9210']
ELASTICSEARCH_INDEX = 'scrapy'
ELASTICSEARCH_INDEX_DATE_FORMAT = '%Y-%m-%d'
ELASTICSEARCH_TYPE = '_doc'
ELASTICSEARCH_USERNAME = 'admin'
ELASTICSEARCH_PASSWORD = '9423d1d5345ed6d0db19'

ScrapyElasticSearch 会以 bulk 方式写入 Easysearch,每次批量的大小由 scrapyelasticsearch.scrapyelasticsearch.ElasticSearchPipeline 参数控制,大家可自行修改。

在上述配置中,我们会将爬到的数据存放到 scrapy-yyyy-mm-dd 索引中。

4、启动爬虫

在 infini_spiders/spiders 目录下,使用命令启动爬虫。

scrapy crawl blog

blog 就是爬虫的名字,对应到 blog.py 里面的 name 变量。运行完成后,就可以去 Easysearch 里查看数据了,当然我们还是使用 Console 进行查看。

5、查看数据

先查看下索引情况,scrapy 索引已经生成,里面有 129 篇博客。

查看详细内容,确保博客正文已经保存。

到了这一步,我们就能使用 Console 对博客进行搜索、分析了。

6、结语

这次的分享就到这里了。欢迎与我一起交流 ES 的各种问题和解决方案。

关于 Easysearch

INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

官网文档:https://infinilabs.cn/docs/latest/easysearch

作者:杨帆
原文:https://infinilabs.cn/blog/2024/use-scrapy-to-crawl-website-data-and-store-search-analyze-in-easysearch/

继续阅读 »

做过数据分析和爬虫程序的小伙伴想必对 Scrapy 这个爬虫框架已经很熟悉了。今天给大家介绍下,如何基于 Scrapy 快速编写一个爬虫程序并利用 Easysearch 储存、检索、分析爬取的数据。我们以极限科技的官网 Blog 为数据源(https://infinilabs.cn/blog) ,做下实操演示。

1、安装 scrapy

使用 Scrapy 可以快速构建一个爬虫项目,从目标网站中获取所需的数据,并进行后续的处理和分析。

pip install scrapy

# 新建项目 infini_spiders
scrapy startproject infini_spiders

# 初始化爬虫
cd infini_spiders/spiders
scrapy genspider blog infinilabs.cn

2、爬虫编写

编写一个爬虫文件 blog.py ,它会首先访问 start_urls 指定的地址,将结果发给 parse 函数解析。通过这一步解析,我们得到了每一篇博客的地址。然后我们对每个博客的地址发送请求,将结果发给 parse_blog 函数进行解析,在这里才会真正提取每篇博客的 title、tag、url、date、content 内容。

from typing import Any, Iterable
import scrapy
from bs4 import BeautifulSoup
from scrapy.http import Response

class BlogSpider(scrapy.Spider):
    name = "blog"
    allowed_domains = ["infinilabs.cn"]
    start_urls = ["https://infinilabs.cn/blog/"]

    def parse(self, response):
        links = response.css("div.blogs a")
        yield from response.follow_all(links, self.parse_blog)

    def parse_blog(self, response):
        title = response.xpath('//div[@class="title"]/text()').extract_first()
        tags = response.xpath('//div[@class="tags"]/div[@class="tag"]/text()').extract()
        url = response.url
        author = response.xpath('//div[@class="logo"]/div[@class="name"]//text()').extract_first()
        date = response.xpath('//div[@class="date"]/text()').extract_first()
        all_text = response.xpath('//p//text() | //h3/text() | //h2/text() | //h4/text() | //ol/li//text()').extract()
        content = '\n'.join(all_text)

        yield {
            'title': title,
            'tags': tags,
            'url': url,
            'author': author,
            'date': date,
            'content': content
        }

提取完我们想要的内容后,接下来就要考虑存储了。考虑到要对内容进行检索、分析,接下来我们将内容直接存放到 Easysearch 当中。

3、安装插件

通过安装 ScrapyElasticsearch pipeline 可将 scrapy 爬取的内容存入到 Easysearch 中。

pip install ScrapyElasticSearch

修改 scrapy 自带的配置文件 settings.py ,添加以下内容。

ITEM_PIPELINES = {
    'scrapyelasticsearch.scrapyelasticsearch.ElasticSearchPipeline': 10
}

ELASTICSEARCH_SERVERS = ['http://192.168.56.3:9210']
ELASTICSEARCH_INDEX = 'scrapy'
ELASTICSEARCH_INDEX_DATE_FORMAT = '%Y-%m-%d'
ELASTICSEARCH_TYPE = '_doc'
ELASTICSEARCH_USERNAME = 'admin'
ELASTICSEARCH_PASSWORD = '9423d1d5345ed6d0db19'

ScrapyElasticSearch 会以 bulk 方式写入 Easysearch,每次批量的大小由 scrapyelasticsearch.scrapyelasticsearch.ElasticSearchPipeline 参数控制,大家可自行修改。

在上述配置中,我们会将爬到的数据存放到 scrapy-yyyy-mm-dd 索引中。

4、启动爬虫

在 infini_spiders/spiders 目录下,使用命令启动爬虫。

scrapy crawl blog

blog 就是爬虫的名字,对应到 blog.py 里面的 name 变量。运行完成后,就可以去 Easysearch 里查看数据了,当然我们还是使用 Console 进行查看。

5、查看数据

先查看下索引情况,scrapy 索引已经生成,里面有 129 篇博客。

查看详细内容,确保博客正文已经保存。

到了这一步,我们就能使用 Console 对博客进行搜索、分析了。

6、结语

这次的分享就到这里了。欢迎与我一起交流 ES 的各种问题和解决方案。

关于 Easysearch

INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

官网文档:https://infinilabs.cn/docs/latest/easysearch

作者:杨帆
原文:https://infinilabs.cn/blog/2024/use-scrapy-to-crawl-website-data-and-store-search-analyze-in-easysearch/

收起阅读 »