如同磁铁吸引四周的铁粉,热情也能吸引周围的人,改变周围的情况。

Elastic日报 第1513期 (2022-10-17)

Elastic日报yuebancanghai 发表了文章 • 0 个评论 • 775 次浏览 • 2022-10-17 19:51 • 来自相关话题

1. 携程搜索基于 CNN 的新词发现算法
   https://www.6aiq.com/article/1665662220461

2. kibana如何制作出好看酷炫的图表
   https://zhuanlan.zhihu.com/p/86703607

3. 百亿级实时计算系统性能优化–—Elasticsearch篇
   https://zhuanlan.zhihu.com/p/3 ... ao.io

编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

cancellable : true 的task 都无法cancel

默认分类locatelli 回复了问题 • 4 人关注 • 3 个回复 • 857 次浏览 • 2022-10-26 10:37 • 来自相关话题

Elastic日报 第1512期 (2022-10-13)

Elastic日报Se7en 发表了文章 • 0 个评论 • 857 次浏览 • 2022-10-13 20:05 • 来自相关话题

1.Elasticsearch杀手神器,让es操作更简单
https://mp.weixin.qq.com/s/oFHPhUzoittNyhIOJ8dm0Q
2.Elasticsearch LDAP 认证(需要梯子)
https://medium.com/%40surangaj ... fcdbf
3.使用 Elasticsearch 预测数据(需要梯子)
https://medium.com/%40surangaj ... 82a1a

编辑:Se7en   
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

elasticsearch角色分离之后,master节点作为协调节点被打挂

ElasticsearchCharele 回复了问题 • 3 人关注 • 2 个回复 • 977 次浏览 • 2022-10-16 19:54 • 来自相关话题

Elastic日报 第1511期 (2022-10-12)

Elastic日报kin122 发表了文章 • 0 个评论 • 654 次浏览 • 2022-10-13 11:47 • 来自相关话题

1.Elasticsearch:运用 Pinned query 来提升特定的结果
https://blog.csdn.net/UbuntuTo ... 45555

2.Elasticsearch DSL 语法中 queries/filters 执行顺序探秘
https://www.6aiq.com/article/1597589414980

3.Elasticsearch常见的报错处理#yyds干货盘点#
https://blog.51cto.com/liqingbiao/4918018



编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

关于ES分片中的拷贝物理文件

回复

ElasticsearchCharele 回复了问题 • 2 人关注 • 5 个回复 • 1258 次浏览 • 2022-10-24 13:10 • 来自相关话题

Elastic日报 第1510期 (2022-10-11)

Elastic日报God_lockin 发表了文章 • 0 个评论 • 801 次浏览 • 2022-10-11 09:59 • 来自相关话题


1. 在k8s上搭企业级ELKB(需要梯子)
https://medium.com/%40siddhart ... 677bb
2. Es8 新功能,NER(需要梯子)
https://medium.com/%40psajan10 ... 6c5e8
3. 还在这样对待ES,他要哭了(需要梯子)
https://medium.com/trendyol-te ... 85746
编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
 

Elastic日报 第1509期 (2022-10-10)

Elastic日报yuebancanghai 发表了文章 • 0 个评论 • 752 次浏览 • 2022-10-10 23:24 • 来自相关话题

1. 知识图谱在美团搜索酒旅场景认知中的应用
   https://www.6aiq.com/article/1664520291651

2. 详解闲鱼搜索系统
   https://www.6aiq.com/article/1664281210765

3. 探究 | kafka-connector 同步 Elasticsearch速度慢根因分析
   https://blog.csdn.net/laoyang3 ... 50717

编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

es2.4.1 单节点,java客户端持续提交数据时断断续续的报NoNodeAvailableException

回复

Elasticsearchlvwendong 发起了问题 • 1 人关注 • 0 个回复 • 1079 次浏览 • 2022-10-10 11:20 • 来自相关话题

ES7.5升级7.17后在写多读少场景下CPU、IO飙升

Elasticsearchzmc 发表了文章 • 0 个评论 • 1241 次浏览 • 2022-10-09 19:37 • 来自相关话题

背景


1.ES PAAS管理的集群升级了100+,从7.5升级到7.17 (保证每个大版本最终仅维护一个小版本集群)

2.由于业务使用差异大,也出了不少问题,前面的文章也有提到过Integer类型字段使用terms查询效率低的情况

3.这里再分析一个CPU、IO飙升的场景

现象


1.用户报障:“ES集群写入吞吐量变小了”

2.观察下来发现确实CPU高了,IO也有明显抖动

1.png



2.png



排查与分析


1.发现YoungGC频率变高了一些,猜测可能是G1GC的问题(我们使用JDK11重新打了ES镜像),经过版本替换,没有明显变化。

参考issue:https://github.com/elastic/ela ... 46169

这可能是另一个场景的case,经过测试,不属于我们的场景。

2.多次执行hot_threads API观察, 发现时不时会出现 update相关函数 消耗的 CPU多。

3.继续使用arthas抓取一段时间的数据,发现是 FST、DocID 读取慢

3.png



从图中可以看到Bulk请求执行过程中的getDocID方法占有大量CPU。

4.集群写多读少,使用的是niofs。可知,7.5版本的FST是在堆外,但是_id字段是在堆内。升级到7.17版本后,FST在堆外,该字段也放到了堆外(官方版本应该是7.9就开始放到堆外了)。数据放到堆外,其实也就是文件放到磁盘,读一次之后放到pagecache。

这样也就可以解释了,在upsert类请求多的时候会频繁查询docId,此时如果_id字段没有进入pageCache或者被踢出pageCache,那么就会出现响应慢,并且CPU高、IO高的情况。

5.mmapfs、hybridfs实测是什么情况暂时不明确,目前没有收到搜索类集群CPU、IO方面的报障。


测试验证


将FST、BKD等全部改成放到堆内(开源版需要改造)

4.png



可以看到,CPU有显著下降,也相对均衡。(之前蓝色线高,是因为该节点有大量的主分片)

结论


1.update、upsert、get等请求如果十分频繁,_id使用offheap将不会是个好的选择,除非给足够的堆外内存,并且保证尽可能常驻内存。

2.不同的业务场景下使用ES的同一版本也会有不一样的效果。

3.mmapfs、hybridfs在频繁update情况下,实测是什么情况暂时不明确,目前没有收到搜索类集群CPU、IO方面的报障,可能不会有这么明显的差距。(官方描述写入速度仅降低了1.8%)

4.最后吐槽一下,写入不停的情况下,translog的恢复实在是太慢了,由于大分片恢复/rebalance时,translog不会被清理,导致恢复/迁移速度急剧下降...目前各个版本也没什么好的解决方式。










Elasticsearch:Hadoop 大数据集成 (Hadoop => Elasticsearch)

Elasticsearchliuxg 发表了文章 • 0 个评论 • 827 次浏览 • 2022-10-09 07:59 • 来自相关话题

在本文章中,我们将学习如何使用 Elasticsearch Hadoop 处理大量数据。 对于我们的练习,我们将使用一个简单的 Apache access 日志来表示我们的 “大数据”。 我们将学习如何编写 MapReduce 作业以使用 Hadoop 摄取文件并将其索引到 Elasticsearch 中。在我们今天的练习中,我们将使用如下的架构来搭建我们的系统:

hadoop1.png


hadoop.png

 
如上所示,我们在左边的 macOS 中安装 Elasticsearch 及 Kibana,而在 Ubuntu OS 中安装 Hadoop。我们将以最新的 Elastic Stack 8.4.2 来进行展示。

Hadoop 是什么?

当我们需要收集、处理/转换和/或存储数千 GB、数千 TB 甚至更多的数据时,Hadoop 可能是完成这项工作的合适工具。它是从头开始构建的,考虑到这样的想法:
  • 一次使用多台计算机(形成一个集群),以便它可以并行处理数据,从而更快地完成工作。我们可以这样想。如果一台服务器需要处理 100 TB 的数据,它可能会在 500 小时内完成。但是如果我们有 100 台服务器,每台只能取一部分数据,例如 server1 可以取第一个 TB,server2 可以取第二个 TB,以此类推。现在他们每个人都只有 1 TB 的数据要处理,而且他们都可以同时处理自己的数据部分。这样,工作可以在 5 小时内完成,而不是 500 小时。当然,这是理论上的和想象的,因为在实践中我们不会减少 100 倍所需的时间,但我们可以非常接近如果条件理想。
  • 在需要时可以很容易地调整计算能力。有更多的数据要处理,而问题要复杂得多?将更多计算机添加到集群。从某种意义上说,这就像在超级计算机上增加了更多的 CPU 内核。
  • 数据不断增长,因此 Hadoop 也必须能够轻松灵活地扩展其存储容量,以满足需求。我们添加到集群的每台计算机都会扩展 Hadoop 分布式文件系统 (HDFS) 的可用总存储空间。
  • 与其他软件不同,它不仅会在硬件故障发生时尝试从硬件故障中恢复。设计理念实际上假设某些硬件肯定会失败。当有数千台计算机并行工作时,可以保证某处某处会不时出现故障。因此,默认情况下,Hadoop 创建数据块的副本并将它们分布在单独的硬件上,因此当偶尔的服务器起火或硬盘或 SSD 死机时,不会丢失任何内容。

总而言之,Hadoop 非常擅长摄取和处理大量信息。它将数据分布在集群中可用的多个节点上,并使用 MapReduce 编程模型在多台机器上同时处理数据(并行处理)。

但这听起来可能有点类似于 Elasticsearch 数据摄取工具所做的事情。尽管它们是为处理相当不同的场景而设计的,但它们有时可能会有些重叠。那么我们为什么以及何时使用其中一个而不是另一个呢?

Hadoop vs Logstash/Elasticsearch

首先,我们不应该考虑哪个比哪个更好。 每个人都擅长为其创造的工作。 每个都有优点和缺点。

为了尝试给你绘制一个图片并让你了解我们何时使用其中一个,让我们考虑以下场景:
  • 当我们需要从数十亿个网站中提取数据时,就像谷歌这样的搜索引擎所做的那样,我们会发现像 Elasticsearch 及 Hadoop 这样的工具非常有用和高效。
  • 当我们需要以这样一种方式存储数据并对其进行索引以便以后可以快速有效地搜索时,我们会发现像 Elasticsearch 这样的东西非常有用。
  • 最后,当我们想要收集实时数据时,例如来自互联网上许多交易所的美元/欧元价格,我们会发现像 Logstash 这样的工具非常适合这项工作。

 
更多阅读,请参阅 https://elasticstack.blog.csdn ... 97392

另类的ES的快照知识

回复

ElasticsearchCharele 回复了问题 • 1 人关注 • 2 个回复 • 1339 次浏览 • 2022-10-07 20:36 • 来自相关话题

elasticsearch能否同时备份多个快照

回复

ElasticsearchCharele 发起了问题 • 1 人关注 • 0 个回复 • 997 次浏览 • 2022-10-02 17:06 • 来自相关话题

这么设置会有什么问题呢???

回复

ElasticsearchCharele 发起了问题 • 2 人关注 • 0 个回复 • 984 次浏览 • 2022-10-01 13:30 • 来自相关话题

【重启通知】 2022 Elastic 中国开发者大会定于2022年10月29日,深圳好日子皇冠假日酒店,不见不散!

资讯动态liaosy 发表了文章 • 0 个评论 • 911 次浏览 • 2022-09-30 18:30 • 来自相关话题

banner_guide.png

亲爱的各位赞助商、合作伙伴、嘉宾和参会朋友:

    很高兴通知大家,经 Elastic 中国开发者大会组委会研究决定,由于疫情原因延期举办的 2022 Elastic 中国开发者大会将于2022年10月29日在深圳好日子皇冠假日酒店重启举办。

    关于会议信息也做一个同步:

    一、会议场地变化:原会议举办场地——深圳圣淘沙酒店,被深圳政府做为深圳市疫情防控指挥中心,酒店工作人员通知2022年全年都无法提供任何场地举办会议。组委会得知情况后,为了大会及时召开,立即做好预案,在不考虑成本的情况下,将会议场地变更为——深圳好日子皇冠假日酒店,会议的整体环境、场地、展厅、茶歇、用餐等都做了全面的升级。

    二、关于讲师和议题:少部分讲师和议题有变化,组委会近期会与讲师沟通确认是否需要更换新的演讲议题。

    这次的 Elastic 中国开发者大会虽然遇到了很多的困难与波折,但因为您们的理解和支持,一直鼓励着我们,给了我们信心与动力,我们会本着办好中国开发者大会的初心继续前行,再次感谢大家的大力支持!

    注:
  1. 目前大会报名购票通道已重新开启,欢迎有兴趣的朋友报名参会,已经报名参会者无需再次报名。报名链接:https://www.bagevent.com/event/7899116
  2. 如需要加入本次大会微信交流群,请加微信(lsy965145175)拉群。
  3. 更多大会资讯请关注官网:https://conf.elasticsearch.cn