Easysearch 压缩模式深度比较:ZSTD + source_reuse 的优势分析
Easysearch • liaosy 发表了文章 • 0 个评论 • 1651 次浏览 • 2023-10-09 17:08
引言
在使用 Easysearch 时,如何在存储和查询性能之间找到平衡是一个常见的挑战。Easysearch 具备多种压缩模式,各有千秋。本文将重点探讨一种特别的压缩模式:zstd + source_reuse
,我们最近重新优化了 source_reuse
,使得它在吞吐量和存储效率方面都表现出色。
测试概览
测试条件选用了 esrally 工具和 geonames 数据集来进行压力测试。数据集包含了 11396503 条记录,往单个 shard 写入,对以下几种压缩模式进行压测对比:
default
best_compression
zstd
zstd + source_reuse
![](https://infinilabs.com/img/blo ... ge.png)
下图是对 CPU 的监控,可以看到各个模式对 CPU 的使用是基本相近的。
default
![](https://infinilabs.com/img/blo ... e2.png)best_compression
![](https://infinilabs.com/img/blo ... e3.png)zstd
![](https://infinilabs.com/img/blo ... e4.png)zstd+reuse
![](https://infinilabs.com/img/blo ... e5.png)
关键数据点
测试结果主要围绕两个指标:
- 中位吞吐量:单位为“每秒操作数”,数值越大表示性能越好。
- 存储大小:单位为 “GB”,数值越小表示存储更加高效。
测试数据如下:
| 压缩模式 | 中位吞吐量 (docs/s) | 存储大小 (GB) |
|---|---|---|
| default | 37834 | 2.7 |
| best_compression | 37404 | 2.2 |
| zstd | 38878 | 2.1 |
| zstd + source_reuse | 38942 | 1.6 |
zstd + source_reuse:压缩原理
该模式采用了source_reuse
压缩算法,该算法通过对keyword
、long
、int
、short
、boolean
等类型的字段值进行复用,并结合 zstd 压缩算法,大大提高了存储效率。
压缩效率
zstd + source_reuse
在存储大小上的表现尤为出色,针对 geonames 数据集只需 1.6 GB 的存储空间,相比于best_compression
模式的 2.2 GB,压缩效率显著提高
。
吞吐量表现
高压缩率并没有让zstd + source_reuse
在吞吐量上做出妥协,因为高压缩率使得其需要持久化的数据大大减小,其中位吞吐量为 38942 docs/s,在 4 种模式中表现最好。
结论
zstd + source_reuse
压缩模式在存储效率和查询性能之间找到了一种极佳的平衡,强烈推荐各位在使用 Easysearch 时,当存储成本比较敏感时,考虑使用zstd + source_reuse
压缩模式。无论是在存储成本还是写入性能方面,它都能为你带来显著的优势。
关于 Easysearch
![about easysearch](https://www.infinilabs.com/img ... er.png)
INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。
官网文档:<https://www.infinilabs.com/doc ... gt%3B
下载地址:<https://www.infinilabs.com/download>
原文:https://www.infinilabs.com/blo ... odes/
社区日报 第1713期 (2023-10-09)
社区日报 • yuebancanghai 发表了文章 • 0 个评论 • 1195 次浏览 • 2023-10-09 10:55
https://mp.weixin.qq.com/s/4dCRJr1sS-10iMOuNMtFLA
2. Elasticsearch系列---并发控制及乐观锁实现原理
https://zhuanlan.zhihu.com/p/649371864
3. elasticsearch中的Translog详解 及其参数与调优
https://zhuanlan.zhihu.com/p/648751324
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
ES 关于 remote_cluster 的一记小坑
Elasticsearch • yangmf2040 发表了文章 • 0 个评论 • 1248 次浏览 • 2023-10-08 15:04
最近有小伙伴找到我们说 Kibana 上添加不了 Remote Cluster,填完信息点 Save 直接跳回原界面了。具体页面,就和没添加前一样。
![](https://infinilabs.com/img/blo ... /a.gif)
我们和小伙伴虽然隔着网线但还是进行了深入、详细的交流,梳理出来了如下信息:
- 两个集群:集群 A 和集群 B ,版本都是 7.10.0 ;
- 集群 A 没区分节点角色;
- 集群 B 设置了 独立的 master 节点、coordinator 节点和 data 节点,其中 data 节点还带 remote_cluster_client 角色;
- 集群 A 没区分节点角色;
- 在集群 A 的 Kibana 可以添加 集群 B 为远程集群;
- 在集群 B 添加 集群 A 就不行,Kibana 跳回之前的页面;
- 网络组确认已经放开策略,网络测试也正常;
翻看了 ES 和 Kibana 的日志, ES 日志中有连接失败的错误信息, Kibana 日志中无对应输出。
yaml<br /> [2023-09-13T11:38:41,055][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.mode] from [SNIFF] to [sniff]<br /> [2023-09-13T11:38:41,055][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.seeds] from [[]] to [["127.0.0.1:7102"]]<br /> [2023-09-13T11:38:41,056][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.mode] from [SNIFF] to [sniff]<br /> [2023-09-13T11:38:41,056][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.seeds] from [[]] to [["127.0.0.1:7102"]]<br /> [2023-09-13T11:38:41,057][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.mode] from [SNIFF] to [sniff]<br /> [2023-09-13T11:38:41,057][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.seeds] from [[]] to [["127.0.0.1:7102"]]<br /> [2023-09-13T11:38:41,093][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.mode] from [SNIFF] to [sniff]<br /> [2023-09-13T11:38:41,094][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.seeds] from [[]] to [["127.0.0.1:7102"]]<br /> [2023-09-13T11:38:41,094][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.mode] from [SNIFF] to [sniff]<br /> [2023-09-13T11:38:41,094][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.seeds] from [[]] to [["127.0.0.1:7102"]]<br /> [2023-09-13T11:38:41,095][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.mode] from [SNIFF] to [sniff]<br /> [2023-09-13T11:38:41,096][INFO ][o.e.c.s.ClusterSettings ] [710-1] updating [cluster.remote.test.seeds] from [[]] to [["127.0.0.1:7102"]]<br /> [2023-09-13T11:38:51,099][WARN ][o.e.t.RemoteClusterService] [710-1] failed to connect to new remote cluster test within 10s<br /> [2023-09-13T11:39:11,101][WARN ][o.e.t.SniffConnectionStrategy] [710-1] fetching nodes from external cluster [test] failed<br /> org.elasticsearch.transport.ConnectTransportException: [][127.0.0.1:7102] handshake_timeout[30s]<br /> at org.elasticsearch.transport.TransportHandshaker.lambda$sendHandshake$1(TransportHandshaker.java:73) ~[elasticsearch-7.10.2.jar:7.10.2]<br /> at org.elasticsearch.common.util.concurrent.ThreadContext$ContextPreservingRunnable.run(ThreadContext.java:684) ~[elasticsearch-7.10.2.jar:7.10.2]<br /> at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1130) [?:?]<br /> at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:630) [?:?]<br /> at java.lang.Thread.run(Thread.java:832) [?:?]<br />
已经测试过网络是通的,开始尝试把集群 B 的角色配置统统去掉再尝试。
嘿,添加成功了。
接下来为了找出问题,开始一步一步给每个节点再加回原来的角色。而且如果节点原来没有 remote_cluster_client 角色,这次也一并加上。
操作过程
- 先从 data 节点开始,恢复角色,尝试添加远程集群,失败。
- 接着 coordinate 节点 , 恢复角色且新增 remote_cluster_client 角色,尝试添加远程集群,失败。
- 最后 master 节点,恢复角色且新增 remote_cluster_client 角色,尝试添加远程集群,成功。
最终直到所有节点都有 remote_cluster_client 角色后,才成功添加远程集群。
结论: ES 集群添加远程集群所有节点都必须拥有 remote_cluster_client 角色。
事情到这里,似乎没什么问题。但当我们对这个结论进行检验时,又有了新发现。
上面的场景忽视了一个因素 -- Kibana 。于是我们搭建了一个两个节点的集群,其中节点 A 是全角色节点,节点 B 只是 data 节点。让 Kibana 分别连接两个节点进行测试。
验证结果
- 当 Kibana 连接节点 A 时,可以正常添加。
- Kibana 连接节点 B 时,添加失败,跳回界面。
结论:ES 集群添加远程集群时,Kibana 连接的 ES 节点必须拥有 remote_cluster_client 角色。
很显然,这个结论更合理。
原因分析
我们是通过 Kibana 界面操作去添加远程集群的, Kibana 连接的节点就被当作 remote_client 。该节点要向远程集群发起连接并执行相关调用。但这一切有个前提,该节点必须有 remote_cluster_client 角色才能向远程集群发起连接。
![](https://infinilabs.com/img/blo ... /b.png)
引申
我们的 CCS 操作也必须发送到一个具有 remote_cluster_client 角色的节点,才能成功执行。
![](https://infinilabs.com/img/blo ... /1.png)
![](https://infinilabs.com/img/blo ... /2.png)
![](https://infinilabs.com/img/blo ... /3.png)
参考连接
[https://www.elastic.co/guide/e ... .html](https://www.elastic.co/guide/e ... e.html)
- 先从 data 节点开始,恢复角色,尝试添加远程集群,失败。
es8.5.3版本使用ElasticsearchClient客户端ReindexRequest操作报错
Elasticsearch • mryu 回复了问题 • 2 人关注 • 1 个回复 • 2400 次浏览 • 2023-10-07 12:01
ES ik可以定义分词长度么
Elasticsearch • xiaoxinba 回复了问题 • 5 人关注 • 2 个回复 • 3450 次浏览 • 2023-09-28 18:43
社区日报 第1712期 (2023-09-28)
社区日报 • Se7en 发表了文章 • 0 个评论 • 1683 次浏览 • 2023-09-28 17:14
https://mp.weixin.qq.com/s/nsGNFCSPKW-ayieSf5yRZQ
2.使用基于 Arm 的 Amazon EC2 M6g 实例优化您的 Elasticsearch 部署
https://community.arm.com/arm- ... 2-m6g
3.通过 Elastic Universal Profiling 解锁整个系统的可见性
https://www.elastic.co/blog/wh ... iling
编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
新版ES8.10的改动
Elasticsearch • liujiacheng 回复了问题 • 2 人关注 • 1 个回复 • 1174 次浏览 • 2023-09-28 10:22
社区日报 第1711期 (2023-09-27)
社区日报 • kin122 发表了文章 • 0 个评论 • 1448 次浏览 • 2023-09-27 10:41
https://cloud.tencent.com/deve ... 75753
2. Elasticsearch:什么是向量和向量存储数据库,我们为什么关心?
https://blog.csdn.net/UbuntuTo ... 26501
3.使用HuggingFace和Elasticsearch进行语义搜索(需要梯子)
https://betterprogramming.pub/ ... 3dd9d
编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
社区日报 第1710期 (2023-09-26)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 1539 次浏览 • 2023-09-26 17:25
https://medium.com/%40utkarsh- ... b89dd
https://blog.devops.dev/system ... 6bbff
https://blog.stackademic.com/s ... f372b
2. 围绕着 .Net core,我是怎么用ES家族搭建的日志平台的(需要梯子)
https://tohidhaghighi.medium.c ... 6b56a
3. 巅峰对决?OpenSearch VS ElasticSearch(需要梯子)
https://medium.com/%40bhongale ... e1482
编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
通过 Helm Chart 部署 Easysearch
经验分享 • liaosy 发表了文章 • 0 个评论 • 1602 次浏览 • 2023-09-25 14:39
Easysearch 可以通过 Helm 快速部署了,快来看看吧!
Easysearch 的 Chart 仓库地址在这里 [https://helm.infinilabs.com](https://helm.infinilabs.com/)。
使用 Helm 部署 Easysearch 有两个前提条件:
- [cert-manager](https://cert-manager.io/docs/installation/)
- [local-path](https://github.com/rancher/local-path-provisioner)
我们先按照 Chart 仓库的说明来快速部署一下。
bash<br /> ~ helm repo add infinilabs <a href="https://helm.infinilabs.com" rel="nofollow" target="_blank">https://helm.infinilabs.com</a><br /> ~ cat << EOF | kubectl apply -n test -f -<br /> apiVersion: cert-manager.io/v1<br /> kind: Issuer<br /> metadata:<br /> name: easysearch-ca-issuer<br /> spec:<br /> selfSigned: {}<br /> ---<br /> apiVersion: cert-manager.io/v1<br /> kind: Certificate<br /> metadata:<br /> name: easysearch-ca-certificate<br /> spec:<br /> commonName: easysearch-ca-certificate<br /> duration: 87600h0m0s<br /> isCA: true<br /> issuerRef:<br /> kind: Issuer<br /> name: easysearch-ca-issuer<br /> privateKey:<br /> algorithm: ECDSA<br /> size: 256<br /> renewBefore: 2160h0m0s<br /> secretName: easysearch-ca-secret<br /> EOF<br /> ~ helm install easysearch infinilabs/easysearch -n test<br />
执行上面的两个命令之后,查看一下部署情况
bash<br /> ~ kubectl get pod -n test<br /> NAME READY STATUS RESTARTS AGE<br /> easysearch-0 1/1 Running 0 38s<br /> ~ kubectl get svc -n test<br /> NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE<br /> easysearch-svc-headless ClusterIP None <none> 9200/TCP,9300/TCP 67s<br /> ~ kubectl exec -n test easysearch-0 -it -- curl -ku'admin:admin' <a href="https://localhost:9200" rel="nofollow" target="_blank">https://localhost:9200</a><br /> Defaulted container "easysearch" out of: easysearch, init-config (init)<br /> {<br /> "name" : "easysearch-0",<br /> "cluster_name" : "infinilabs",<br /> "cluster_uuid" : "JwhwwWHMQKy8l6_US7rB1A",<br /> "version" : {<br /> "distribution" : "easysearch",<br /> "number" : "1.5.0",<br /> "distributor" : "INFINI Labs",<br /> "build_hash" : "5b5b117bc43e6793e7bb0cd8bd83567a5ef35be0",<br /> "build_date" : "2023-09-07T14:55:21.232870Z",<br /> "build_snapshot" : false,<br /> "lucene_version" : "8.11.2",<br /> "minimum_wire_lucene_version" : "7.7.0",<br /> "minimum_lucene_index_compatibility_version" : "7.7.0"<br /> },<br /> "tagline" : "You Know, For Easy Search!"<br /> }<br />
通过上面的验证,我们可以看到 Easysearch 已经部署完成,是不是很方便。
按照 Chart 仓库的指导说明部署的是一个单节点集群,那如果要部署多节点的要怎么办呢?下面让我们来研究一下 Easysearch Chart 包的源码 [https://github.com/infinilabs/ ... earch](https://github.com/infinilabs/ ... search)。
熟悉 Chart 包结构的小伙伴都清楚,Chart 包的变量配置一般都是在 values.yaml 文件中配置的。
我们先来看一下默认的 [values.yaml](https://github.com/infinilabs/ ... s.yaml) 文件内容(这里只截选了一些可能需要变更的配置,完整内容请查阅源码):
- pod 副本数以及使用资源的配置
yaml<br /> replicaCount: 1<br /> resources:<br /> limits:<br /> cpu: 1000m<br /> memory: 2Gi<br /> requests:<br /> cpu: 1000m<br /> memory: 2Gi<br />
- 使用存储类型以及容量的配置
yaml<br /> storageClassName: local-path<br /> dataVolumeStorage: 100Gi<br />
- 集群名、主节点列表以及节点角色配置
yaml<br /> clusterName: infinilabs<br /> masterHosts: '"easysearch-0"'<br /> discoverySeedHosts: '"easysearch-0.easysearch-svc-headless"'<br /> nodeRoles: '"master","data","ingest","remote_cluster_client"'<br />
根据研究源码的结果,多节点集群的部署只需要我们调整部署的 pod 副本数、集群名、主节点列表以及节点角色这几个配置。下面让我们来实践一下:
1、集群规划
集群名:es-test
规模:3 主节点 + 3 数据节点 + 2 协调节点
2、Chart 的版本名
主节点:es-test-master
数据节点:es-test-data
协调节点:es-test-coordinate
3、根据节点角色创建不同的 values.yaml 文件
- es-test-master.yaml
yaml<br /> replicaCount: 3<br /> clusterName: es-test<br /> masterHosts: '"es-test-master-easysearch-0","es-test-master-easysearch-1","es-test-master-easysearch-2"'<br /> discoverySeedHosts: '"es-test-master-easysearch-0.es-test-master-easysearch-svc-headless","es-test-master-easysearch-1.es-test-master-easysearch-svc-headless","es-test-master-easysearch-2.es-test-master-easysearch-svc-headless"'<br /> nodeRoles: '"master","ingest","remote_cluster_client"'<br />
- es-test-data.yaml
yaml<br /> replicaCount: 3<br /> clusterName: es-test<br /> masterHosts: '"es-test-master-easysearch-0","es-test-master-easysearch-1","es-test-master-easysearch-2"'<br /> discoverySeedHosts: '"es-test-master-easysearch-0.es-test-master-easysearch-svc-headless","es-test-master-easysearch-1.es-test-master-easysearch-svc-headless","es-test-master-easysearch-2.es-test-master-easysearch-svc-headless"'<br /> nodeRoles: '"data","ingest","remote_cluster_client"'<br />
- es-test-coordinate.yaml
yaml<br /> replicaCount: 2<br /> clusterName: es-test<br /> masterHosts: '"es-test-master-easysearch-0","es-test-master-easysearch-1","es-test-master-easysearch-2"'<br /> discoverySeedHosts: '"es-test-master-easysearch-0.es-test-master-easysearch-svc-headless","es-test-master-easysearch-1.es-test-master-easysearch-svc-headless","es-test-master-easysearch-2.es-test-master-easysearch-svc-headless"'<br /> nodeRoles: ""<br />
4、使用各节点角色的配置文件部署
bash<br /> ~ helm install es-test-master infinilabs/easysearch -n test -f es-test-master.yaml<br /> ~ helm install es-test-data infinilabs/easysearch -n test -f es-test-data.yaml<br /> ~ helm install es-test-coordinate infinilabs/easysearch -n test -f es-test-coordinate.yaml<br />
5、验证
bash<br /> ~ kubectl get pod -n test|grep es-test<br /> es-test-master-easysearch-0 1/1 Running 0 5m57s<br /> es-test-data-easysearch-0 1/1 Running 0 5m29s<br /> es-test-coordinate-easysearch-0 1/1 Running 0 5m10s<br /> es-test-master-easysearch-1 1/1 Running 0 4m57s<br /> es-test-data-easysearch-1 1/1 Running 0 4m29s<br /> es-test-coordinate-easysearch-1 1/1 Running 0 4m10s<br /> es-test-master-easysearch-2 1/1 Running 0 3m56s<br /> es-test-data-easysearch-2 1/1 Running 0 3m29s<br /> ~ kubectl exec -n test es-test-master-easysearch-0 -it -- curl -ku'admin:admin' <a href="https://localhost:9200/_cat/nodes?v" rel="nofollow" target="_blank">https://localhost:9200/_cat/nodes?v</a><br /> Defaulted container "easysearch" out of: easysearch, init-config (init)<br /> ip heap.percent ram.percent cpu load_1m load_5m load_15m node.role master name<br /> 10.42.0.130 12 63 12 1.53 2.67 2.11 - - es-test-coordinate-easysearch-0<br /> 10.42.0.136 53 65 52 1.53 2.67 2.11 dir - es-test-data-easysearch-1<br /> 10.42.0.139 6 63 14 1.53 2.67 2.11 - - es-test-coordinate-easysearch-1<br /> 10.42.0.133 10 63 14 1.53 2.67 2.11 imr - es-test-master-easysearch-1<br /> 10.42.0.149 58 65 59 1.53 2.67 2.11 dir - es-test-data-easysearch-2<br /> 10.42.0.124 53 68 35 1.53 2.67 2.11 imr * es-test-master-easysearch-0<br /> 10.42.0.127 56 65 46 1.53 2.67 2.11 dir - es-test-data-easysearch-0<br /> 10.42.0.146 15 63 18 1.53 2.67 2.11 imr - es-test-master-easysearch-2<br />
至此,多集群已部署完成。
关于 Easysearch
![about easysearch](https://www.infinilabs.com/img ... er.png)
INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。
官网文档:<https://www.infinilabs.com/doc ... gt%3B
下载地址:<https://www.infinilabs.com/download>
社区日报 第1709期 (2023-09-25)
社区日报 • yuebancanghai 发表了文章 • 0 个评论 • 1365 次浏览 • 2023-09-25 11:55
https://blog.csdn.net/yangshan ... 07786
2. Elasticsearch:如何在 Elasticsearch 中轻松编写 Painless 脚本
https://blog.csdn.net/UbuntuTo ... 26782
3. Elasticsearch 主从同步之跨集群复制
https://blog.51cto.com/elasticsearch/5768458
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
es7.6 如何通过源码调试自己开发的插件
Elasticsearch • hapjin 回复了问题 • 5 人关注 • 3 个回复 • 1511 次浏览 • 2023-09-23 22:13