有个人长的像洋葱,走着走着就哭了…….

社区日报 第1608期 (2023-04-10)

社区日报yuebancanghai 发表了文章 • 0 个评论 • 4189 次浏览 • 2023-04-10 08:59 • 来自相关话题

1. Elasticsearch:2023中国开发者大会
   http://www.360doc.com/content/ ... shtml
2. Elasticsearch:使用 Elastic 机器学习进行 data frame 分析
   https://blog.csdn.net/UbuntuTo ... 90329
3. Elasticsearch在机器学习上的应用
   https://www.modb.pro/db/69770
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

Web Scraper + Elasticsearch + Kibana + SearchKit 打造的豆瓣电影top250 搜索演示系统

Elasticsearch 发表了文章 • 0 个评论 • 6143 次浏览 • 2023-04-09 10:56 • 来自相关话题

Web Scraper + Elasticsearch + Kibana + SearchKit 打造的豆瓣电影top250 搜索演示系统

作者:小森同学

声明:电影数据来源于“豆瓣电影”,如有侵权,请联系删除


1.png



2.png




Web Scraper


json<br /> {<br /> "_id": "top250",<br /> "startUrl": ["<a href="https://movie.douban.com/top250?start=" rel="nofollow" target="_blank">https://movie.douban.com/top250?start=</a>[0-225:25]&filter="],<br /> "selectors": [{<br /> "id": "container",<br /> "multiple": true,<br /> "parentSelectors": ["_root"],<br /> "selector": ".grid_view li",<br /> "type": "SelectorElement"<br /> }, {<br /> "id": "name",<br /> "multiple": false,<br /> "parentSelectors": ["container"],<br /> "regex": "",<br /> "selector": "span.title:nth-of-type(1)",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "number",<br /> "multiple": false,<br /> "parentSelectors": ["container"],<br /> "regex": "",<br /> "selector": "em",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "score",<br /> "multiple": false,<br /> "parentSelectors": ["container"],<br /> "regex": "",<br /> "selector": "span.rating_num",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "review",<br /> "multiple": false,<br /> "parentSelectors": ["container"],<br /> "regex": "",<br /> "selector": "span.inq",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "year",<br /> "multiple": false,<br /> "parentSelectors": ["container"],<br /> "regex": "\\d{4}",<br /> "selector": "p:nth-of-type(1)",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "tour_guide",<br /> "multiple": false,<br /> "parentSelectors": ["container"],<br /> "regex": "^导演: \\S*",<br /> "selector": "p:nth-of-type(1)",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "type",<br /> "multiple": false,<br /> "parentSelectors": ["container"],<br /> "regex": "[^/]+$",<br /> "selector": "p:nth-of-type(1)",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "area",<br /> "multiple": false,<br /> "parentSelectors": ["container"],<br /> "regex": "[^\\/]+(?=\\/[^\\/]*$)",<br /> "selector": "p:nth-of-type(1)",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "detail_link",<br /> "multiple": false,<br /> "parentSelectors": ["container"],<br /> "selector": ".hd a",<br /> "type": "SelectorLink"<br /> }, {<br /> "id": "director",<br /> "multiple": false,<br /> "parentSelectors": ["detail_link"],<br /> "regex": "",<br /> "selector": "span:nth-of-type(1) .attrs a",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "screenwriter",<br /> "multiple": false,<br /> "parentSelectors": ["detail_link"],<br /> "regex": "(?<=编剧: )[\\u4e00-\\u9fa5A-Za-z0-9/()\\·\\s]+(?=主演)",<br /> "selector": "div#info",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "film_length",<br /> "multiple": false,<br /> "parentSelectors": ["detail_link"],<br /> "regex": "\\d+",<br /> "selector": "span[property='v:runtime']",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "IMDb",<br /> "multiple": false,<br /> "parentSelectors": ["detail_link"],<br /> "regex": "(?<=[IMDb:\\s+])\\S*(?=\\d*$)",<br /> "selector": "div#info",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "language",<br /> "multiple": false,<br /> "parentSelectors": ["detail_link"],<br /> "regex": "(?<=语言: )\\S+",<br /> "selector": "div#info",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "alias",<br /> "multiple": false,<br /> "parentSelectors": ["detail_link"],<br /> "regex": "(?<=又名: )[\\u4e00-\\u9fa5A-Za-z0-9/()\\s]+(?=IMDb)",<br /> "selector": "div#info",<br /> "type": "SelectorText"<br /> }, {<br /> "id": "pic",<br /> "multiple": false,<br /> "parentSelectors": ["container"],<br /> "selector": "img",<br /> "type": "SelectorImage"<br /> }]<br /> }<br />


elasticsearch


<br /> {<br /> "mappings": {<br /> "properties": {<br /> "IMDb": {<br /> "type": "keyword",<br /> "copy_to": [<br /> "all"<br /> ]<br /> },<br /> "alias": {<br /> "type": "text",<br /> "fields": {<br /> "keyword": {<br /> "type": "keyword",<br /> "ignore_above": 256<br /> }<br /> },<br /> "copy_to": [<br /> "all"<br /> ],<br /> "analyzer": "ik_max_word",<br /> "search_analyzer": "ik_smart"<br /> },<br /> "all": {<br /> "type": "text",<br /> "analyzer": "ik_max_word",<br /> "search_analyzer": "ik_smart"<br /> },<br /> "area": {<br /> "type": "text",<br /> "fields": {<br /> "keyword": {<br /> "type": "keyword",<br /> "ignore_above": 256<br /> }<br /> },<br /> "copy_to": [<br /> "all"<br /> ],<br /> "analyzer": "ik_max_word",<br /> "search_analyzer": "ik_smart"<br /> },<br /> "director": {<br /> "type": "text",<br /> "fields": {<br /> "keyword": {<br /> "type": "keyword",<br /> "ignore_above": 256<br /> }<br /> },<br /> "copy_to": [<br /> "all"<br /> ],<br /> "analyzer": "ik_max_word",<br /> "search_analyzer": "ik_smart"<br /> },<br /> "film_length": {<br /> "type": "long"<br /> },<br /> "id": {<br /> "type": "keyword"<br /> },<br /> "language": {<br /> "type": "text",<br /> "fields": {<br /> "keyword": {<br /> "type": "keyword",<br /> "ignore_above": 256<br /> }<br /> },<br /> "copy_to": [<br /> "all"<br /> ],<br /> "analyzer": "ik_max_word",<br /> "search_analyzer": "ik_smart"<br /> },<br /> "link": {<br /> "type": "keyword"<br /> },<br /> "name": {<br /> "type": "text",<br /> "fields": {<br /> "keyword": {<br /> "type": "keyword",<br /> "ignore_above": 256<br /> }<br /> },<br /> "copy_to": [<br /> "all"<br /> ],<br /> "analyzer": "ik_max_word",<br /> "search_analyzer": "ik_smart"<br /> },<br /> "number": {<br /> "type": "long"<br /> },<br /> "photo": {<br /> "type": "keyword"<br /> },<br /> "review": {<br /> "type": "text",<br /> "fields": {<br /> "keyword": {<br /> "type": "keyword",<br /> "ignore_above": 256<br /> }<br /> },<br /> "copy_to": [<br /> "all"<br /> ],<br /> "analyzer": "ik_max_word",<br /> "search_analyzer": "ik_smart"<br /> },<br /> "score": {<br /> "type": "double"<br /> },<br /> "screenwriter": {<br /> "type": "text",<br /> "fields": {<br /> "keyword": {<br /> "type": "keyword",<br /> "ignore_above": 256<br /> }<br /> },<br /> "copy_to": [<br /> "all"<br /> ],<br /> "analyzer": "ik_max_word",<br /> "search_analyzer": "ik_smart"<br /> },<br /> "type": {<br /> "type": "text",<br /> "fields": {<br /> "keyword": {<br /> "type": "keyword",<br /> "ignore_above": 256<br /> }<br /> },<br /> "copy_to": [<br /> "all"<br /> ],<br /> "analyzer": "ik_max_word",<br /> "search_analyzer": "ik_smart"<br /> },<br /> "year": {<br /> "type": "long"<br /> }<br /> }<br /> }<br /> }<br />

kibana


需要使用pipeline对索引字段进行处理,如对type 通过空格进行分割为数组等,可以参照官方文档或其他博客。

制作仪表板省略, 请自行搜索

SearchKit

参考 https://github.com/searchkit/searchkit-starter-app


社区日报 第1607期 (2023-04-07)

社区日报laoyang360 发表了文章 • 0 个评论 • 4614 次浏览 • 2023-04-07 22:12 • 来自相关话题


1、Elasticsearch 命名实体识别实现
https://www.elastic.co/cn/blog ... ample

2、使用 Elasticsearch 健康 API 诊断集群健康状况
https://www.elastic.co/cn/blog ... h-api

3、使用 EFK 技术栈聚合日志并进行分析实战
https://www.upnxtblog.com/inde ... stack

编辑:铭毅天下
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

社区日报 第1606期 (2023-04-06)

社区日报Se7en 发表了文章 • 0 个评论 • 4526 次浏览 • 2023-04-06 12:19 • 来自相关话题

1.了解 Wazuh 解码器(需要梯子)
https://socfortress.medium.com ... c242c
2.如何将美好的一天变成噩梦:一个 Elasticsearch 故事(需要梯子)
https://medium.com/stratio/how ... 59cca
3.使用 Terraform 部署 OpenSearch(需要梯子)
https://medium.com/%40demianch ... f52d0

编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

社区日报 第1605期 (2023-04-05)

社区日报kin122 发表了文章 • 0 个评论 • 4479 次浏览 • 2023-04-05 17:29 • 来自相关话题

1.ES 工坊笔记:script处理第一部分(需要梯子)
https://medium.com/towardsdev/ ... c1d35
2.ES 工坊笔记:script处理第二部分(需要梯子)
https://towardsdev.com/elastic ... 60aab
3.ES 工坊笔记:script处理第三部分(需要梯子)
https://medium.com/towardsdev/ ... f46a1
编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
 

社区日报 第1604期 (2023-04-04)

社区日报God_lockin 发表了文章 • 0 个评论 • 4836 次浏览 • 2023-04-04 13:04 • 来自相关话题



1. ES 内部运行机制(需要梯子)
https://medium.com/geekculture ... 077fa


2. 你还会不会数据rollover了(需要梯子)
https://medium.com/nerd-for-te ... f150a


3. 你一定不知道网飞是咋构建媒体库的(需要梯子)
https://netflixtechblog.com/im ... 0b42a

编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

ES数据节点中的某一台突然异常,cpu明显高于其他节点

Elasticsearchake 回复了问题 • 5 人关注 • 2 个回复 • 6754 次浏览 • 2023-09-18 14:28 • 来自相关话题

社区日报 第1603期 (2023-04-03)

社区日报yuebancanghai 发表了文章 • 0 个评论 • 4963 次浏览 • 2023-04-03 10:26 • 来自相关话题

1. Elasticsearch:用户安全设置
   https://blog.csdn.net/UbuntuTo ... 07480
2. Kibana 8.X 如何做出靠谱的词云图
   https://blog.51cto.com/elasticsearch/5668412
3. Elasticsearch 聚合性能优化
   http://www.360doc.com/content/ ... shtml
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

社区日报 第1602期 (2023-03-31)

社区日报laoyang360 发表了文章 • 0 个评论 • 5352 次浏览 • 2023-03-31 19:13 • 来自相关话题

1、Elasticsearch 中六边形(hexagonal)空间分析的概念及其应用
https://www.elastic.co/cn/blog ... earch

2、Elasticsearch 性能优化最佳实战
https://search-guard.com/elast ... tion/

3、比Elasticsearch 更轻量级的搜索引擎:Meilisearch
https://blog.meilisearch.com/w ... arch/
 
编辑:铭毅天下
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

es bulk写入数据时,查询变得很慢

Elasticsearchcharlesfang 回复了问题 • 2 人关注 • 1 个回复 • 6366 次浏览 • 2023-04-06 11:35 • 来自相关话题

Elastic7.10.0 restore定期恢复抛 data too large

回复

ElasticsearchHyj_simple1 发起了问题 • 1 人关注 • 0 个回复 • 6302 次浏览 • 2023-03-31 14:17 • 来自相关话题

社区日报 第1601期 (2023-03-30)

社区日报Se7en 发表了文章 • 0 个评论 • 4544 次浏览 • 2023-03-30 09:10 • 来自相关话题

1.使用 Metricbeat 收集 Kubernetes 事件(需要梯子)
https://medium.com/%40andrew.k ... 5cc45
2.使用 Searchkit 快速构建搜索 UI(需要梯子)
https://medium.com/searchkit-b ... b5a3d
3.使用 Kafka、Connect、KSQL、Elasticsearch 和 Flask 进行实时数据处理和分析(需要梯子)
https://medium.com/%40stefenta ... 32d78

编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

【4月8日】Elastic 中国开发者大会 2023 议程预告

活动liaosy 发表了文章 • 0 个评论 • 5946 次浏览 • 2023-03-29 21:33 • 来自相关话题

【年度盛会】Elastic 中国开发者大会 2023,来自Elastic官方、极限科技、阿里、腾讯、谷歌、字节等业界专家带来的干货分享,我们诚挚邀请您共同参与。扫下图二维码或文末“阅读原文”即可报名购票参加(已报过名的参会者请勿重复报名),附上八折购票码(折扣码: 80OFF)。

大会议程


ES大会议程20230408.png




关于大会

Elastic 中国开发者大会 2023 是由 Elastic 官方、Elastic 中文社区和极限科技联合主办的开发者大会,作为中国国内唯一一个专门讨论 Elasticsearch 开源技术的大会,是中国最权威和最具实力干货的技术大会,其专业性和内容的质量一直以来在业内都是有口皆碑,大会最早发起于 2013 年初一个很小的线下聚会,之后每年迅速成长,往年大会的演讲嘉宾有来自 Elastic 官方、Google、腾讯、阿里巴巴、百度、字节、360、微博、美团、58、苏宁等众多公司的技术专家,带来过众多精彩的分享,与会听众大多为大数据领域相关的架构师、技术经理与一线开发工程师和运维工程师。

我们本着非盈利目的来举办大会,今年的大会将于2023年4月8日在深圳举行,举办开发者大会的目的是为中国广大的 Elasticsearch 开发者提供一个技术交流和学习切磋的地方,汇集业界众多的成功案例,集思广益,发散思维,促进社区和行业的进步。

大会时间:2023-04-08 08:00-18:00
大会地点:深圳深铁皇冠假日酒店
大会官网:[https://conf.elasticsearch.cn](https://conf.elasticsearch.cn)

社区日报 第1600期 (2023-03-29)

社区日报kin122 发表了文章 • 0 个评论 • 4322 次浏览 • 2023-03-29 10:25 • 来自相关话题

1.一个提高reindex的小工具(需要梯子)
https://vakhtang-matskeplishvi ... 51417
2.Elasticsearch highlighter的使用(需要梯子)
https://medium.com/jds-enginee ... 5ef45
3.Elasticsearch:在 Elastic Stack 8.0 中引入近似最近邻搜索
https://blog.csdn.net/UbuntuTo ... 11615

编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
 

社区日报 第1599期 (2023-03-28)

社区日报God_lockin 发表了文章 • 0 个评论 • 4437 次浏览 • 2023-03-28 16:30 • 来自相关话题


1. 在aws上做snapshot怎么玩?(需要梯子)
https://medium.com/docsapp-pro ... daecb

2. python接入ES的例子(需要梯子)
https://betterprogramming.pub/ ... 5d815

3. 拿angularJS + Elasticsearch搞个搜索界面是不是很简单?(需要梯子)
https://medium.appbase.io/buil ... ace1d

编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili