即使是不成熟的尝试,也胜于胎死腹中的策略。

es怎么生成TB级别的测试数据

ElasticsearchGod_lockin 回复了问题 • 2 人关注 • 1 个回复 • 2265 次浏览 • 2023-10-25 11:12 • 来自相关话题

社区日报 第1721期 (2023-10-23)

社区日报yuebancanghai 发表了文章 • 0 个评论 • 1871 次浏览 • 2023-10-23 08:50 • 来自相关话题

1. Elasticsearch 8.X 分词插件版本更新不及时解决方案
   https://blog.csdn.net/laoyang3 ... 56311
2. Elasticsearch如何实现Word、PDF、TXT 全文内容检索
   https://mp.weixin.qq.com/s/LGwuJFi5ZGeUMn3xdaWBsQ
3. Elastic Security 8.8:强大的端点响应、警报分类和数据准确性可提高安全效率
   https://cloud.tencent.com/deve ... 93565
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

Easysearch Chart 0.2.0 都有哪些变化

Easysearchliaosy 发表了文章 • 0 个评论 • 1786 次浏览 • 2023-10-20 20:32 • 来自相关话题

Easysearch Chart 包更新了,让我们来看看都有哪些变化:

  • Docker 镜像升级

    ![](https://infinilabs.com/img/blo ... 01.png)

  • Service 名称调整,支持 NodePort 模式部署

    ![](https://infinilabs.com/img/blo ... 02.png)
    ![](https://infinilabs.com/img/blo ... 03.png)
    ![](https://infinilabs.com/img/blo ... 04.png)

    现在让我们用 NodePort 模式部署一下:

    ```bash

    helm search repo infinilabs

    NAME CHART VERSION APP VERSION DESCRIPTION
    infinilabs/console 0.2.0 1.8.0-1259 A Helm chart for Kubernetes
    infinilabs/easysearch 0.2.0 1.6.0-59 A Helm chart for Kubernetes
    infinilabs/gateway 0.1.0 1.18.0-1123 A Helm chart for Kubernetes

    cat es-nodeport.yaml

    service:
    type: NodePort
    http: 9200
    transport: 9300
    httpNodeport: 30920
    transNodeport: 30930

    helm install easysearch infinilabs/easysearch -n infini -f es-nodeport.yaml

    NAME: easysearch
    LAST DEPLOYED: Mon Oct 9 08:38:28 2023
    NAMESPACE: infini
    STATUS: deployed
    REVISION: 1
    TEST SUITE: None
    NOTES:

    1. Get the application URL by running these commands:
      export NODE_PORT=$(kubectl get --namespace infini -o jsonpath="{.spec.ports[0].nodePort}" services easysearch)
      export NODE_IP=$(kubectl get nodes --namespace infini -o jsonpath="{.items[0].status.addresses[0].address}")
      echo http://$NODE_IP:$NODE_PORT

      kubectl get svc -n infini

      NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
      easysearch NodePort 10.43.175.245 9200:30920/TCP,9300:30930/TCP 25s

      kubectl get pod -n infini

      NAME READY STATUS RESTARTS AGE
      easysearch-0 1/1 Running 0 40s

      curl -ku'admin:admin' https://10.0.0.1:30920

      {
      "name" : "easysearch-0",
      "cluster_name" : "infinilabs",
      "cluster_uuid" : "2cPioaONRVWp6BydbGuXDw",
      "version" : {
      "distribution" : "easysearch",
      "number" : "1.6.0",
      "distributor" : "INFINI Labs",
      "build_hash" : "e5d1ff9067b3dd696d52c61fbca1f8daed931fb7",
      "build_date" : "2023-09-22T00:55:32.292580Z",
      "build_snapshot" : false,
      "lucene_version" : "8.11.2",
      "minimum_wire_lucene_version" : "7.7.0",
      "minimum_lucene_index_compatibility_version" : "7.7.0"
      },
      "tagline" : "You Know, For Easy Search!"
      }
      ```

      关于 Easysearch


      ![about easysearch](https://www.infinilabs.com/img ... er.png)

      INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

      官网文档:<https://www.infinilabs.com/doc ... gt%3B

      下载地址:<https://www.infinilabs.com/download>;

      原文:<https://www.infinilabs.com/blo ... gt%3B

INFINI Labs 产品更新 | Easysearch 优化字段压缩提升写入速度,Console 优化数据迁移和校验等功能

资讯动态liaosy 发表了文章 • 0 个评论 • 1745 次浏览 • 2023-10-20 20:29 • 来自相关话题

![release](https://www.infinilabs.com/img ... er.png)

INFINI Labs 产品又更新啦~。本次更新概要如下:Easysearch 增强 source_reuse 压缩功能,并大幅提升写入速度;Console 优化了数据迁移和校验功能,新增了通用的数据列表和下拉等标准组件,化繁为简,实现可复用。

以下是本次更新的详细说明。

INFINI Easysearch v1.6.1


INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。

Easysearch 本次更新如下:

Features


  • 增加 analysis-icu 插件

    Bug fix


  • 修复 JDK 17 及更高版本运行告警及异常

    Improvements


  • 安装脚本优化,避免脚本使用不当出现错误
  • source_reuse 增加对 float,double,geo_point,half_float,ip 类型字段的压缩
  • 优化启用 source_reuse 时的写入速度,压缩的字段越多,写入速度越快

    INFINI Console v1.9.0


    INFINI Console 是一款非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管, 企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。

    Console 在线体验: <http://demo.infini.cloud>; (用户名/密码:readonly/readonly)。

    Console 本次更新如下:

    Features


  • 支持正常结束的数据校验任务重跑
  • 添加后端服务关闭错误提示
  • 新增统一的数据列表展示标准组件,基于该组件,配置相关字段即可快速渲染数据列表 UI
    ![](https://infinilabs.com/img/blo ... /1.png)

  • 新增下拉列表标准组件,支持搜索、多选、排序、过滤、分组、翻页等
    ![](https://infinilabs.com/img/blo ... /2.png)

    Bug fix


  • 修复开发工具不支持 update API 的问题
  • 修复数据校验任务重跑之后不一致文档数显示不对的问题

    Improvements


  • 数据校验 UI 优化
  • 集群、节点、索引下拉列表 UI 优化
  • 数据迁移进度条优化

    期待反馈


    欢迎下载体验使用,如果您在使用过程中遇到如何疑问或者问题,欢迎前往 INFINI Labs Github(<https://github.com/infinilabs>;) 中的对应项目中提交 Feature Request 或提交 Bug。

  • INFINI Gateway: <https://github.com/infinilabs/gateway/issues>;
  • INFINI Console: <https://github.com/infinilabs/console/issues>;
  • 下载地址: <https://www.infinilabs.com/download>;

    您还可以通过邮件联系我们:hello@infini.ltd

    或者拨打我们的热线电话:(+86) 400-139-9200

    欢迎加入 Discord 聊天室:<https://discord.gg/4tKTMkkvVX>;

    也欢迎大家微信扫码添加小助手(INFINI-Labs),加入用户群一起讨论交流。

    ![](https://infinilabs.com/img/blo ... ew.jpg)

    关于极限科技(INFINI Labs)


    ![关于极限科技](https://infinilabs.com/img/blo ... bs.png)

    极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

    极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

    官网:<https://www.infinilabs.com>;

    原文:<https://www.infinilabs.com/blo ... gt%3B

社区日报 第1720期 (2023-10-19)

社区日报Se7en 发表了文章 • 0 个评论 • 1563 次浏览 • 2023-10-19 12:07 • 来自相关话题

1.ES|QL:Elasticsearch的新一代查询语言
https://mp.weixin.qq.com/s/tob1Ki6h96uCcN34_uNZjw
2.将 Amazon Bedrock 与 Elasticsearch 和 Langchain 结合使用
https://www.elastic.co/search- ... chain
3.如何为 Elasticsearch 创建自定义连接器
https://www.elastic.co/search- ... earch

编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

ES集群扩展,多节点好,还是高配置好

Elasticsearchzmc 回复了问题 • 2 人关注 • 1 个回复 • 1925 次浏览 • 2023-10-25 09:59 • 来自相关话题

社区日报 第1719期 (2023-10-18)

社区日报kin122 发表了文章 • 0 个评论 • 1461 次浏览 • 2023-10-18 15:36 • 来自相关话题

1.ES 关于 remote_cluster 的一记小坑
https://mp.weixin.qq.com/s/TPRkg_9_hqJZOX-vb1MgHQ
2. Elasticsearch 8.11 中的合并更少,摄取更快
https://blog.csdn.net/UbuntuTo ... 23791
3.检索系统: 位图索引
https://zhuanlan.zhihu.com/p/524337366

编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

社区日报 第1718期 (2023-10-17)

社区日报yuebancanghai 发表了文章 • 0 个评论 • 1438 次浏览 • 2023-10-17 13:31 • 来自相关话题

Elastic日报 第1718期 (2023-10-17)
1. Elasticsearch ORM框架,用起来够优雅
   https://zhuanlan.zhihu.com/p/574639237?utm_id=0
2. MySQL、HBase、ElasticSearch三者对比
   https://cloud.tencent.com/deve ... 38673
3. 基于ElasticSearch的ORM Easy-Es框架
   https://blog.csdn.net/Octopus2 ... 88806
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

设置ES全局查询超时search.default_search_timeout是否会影响scroll查询

ElasticsearchCharele 回复了问题 • 3 人关注 • 2 个回复 • 1640 次浏览 • 2023-10-19 14:23 • 来自相关话题

社区日报 第1717期 (2023-10-16)

社区日报God_lockin 发表了文章 • 0 个评论 • 1320 次浏览 • 2023-10-16 13:28 • 来自相关话题

1. 把系统日志丢进ES进行分析,我还想更快一点(需要梯子)
https://medium.com/cloud-nativ ... 70168
2. 围绕NodeJs的系统做个日志?🉑️!(需要梯子)
https://medium.com/%40hussaing ... 18c25
3. 用ES做语义搜索,你学废了没(需要梯子)
https://blog.gopenai.com/seman ... d116f
编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
 

社区日报 第1715 期 (2023-10-12)

社区日报Se7en 发表了文章 • 0 个评论 • 1164 次浏览 • 2023-10-12 16:22 • 来自相关话题

1.如何安排自托管 Elasticsearch/Opensearch 集群的维护任务(需要梯子)
https://medium.com/geekculture ... 53ad6
2.Elasticsearch 排障指南
https://dev.to/moesif/how-to-d ... r-2ge
3.2023 年 6 门最适合初学者学习的 Elastic Stack 课程(需要梯子)
https://medium.com/javarevisit ... 015c4

编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

社区日报 第1714 期 (2023-10-10)

社区日报kin122 发表了文章 • 0 个评论 • 1211 次浏览 • 2023-10-10 15:01 • 来自相关话题

1.Elasticsearch:什么时候应该考虑在 Elasticsearch 中添加协调节点?
https://blog.csdn.net/UbuntuTo ... 43269
2. Lucene vs. Database
https://zhuanlan.zhihu.com/p/516008190
3.Lucene:理解TF/IDF模型
https://zhuanlan.zhihu.com/p/508534047

编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

Easysearch 压缩功能的显著提升:从 8.7GB 到 1.4GB

Easysearchliaosy 发表了文章 • 0 个评论 • 1496 次浏览 • 2023-10-09 17:11 • 来自相关话题

引言


在海量数据的存储和处理中,索引膨胀率是一个不可忽视的关键指标。它直接影响了存储成本和查询性能。近期,Easysearch 在这方面取得了显著的进展,其压缩功能的效果远超过了之前的版本。本文将详细介绍这一进展。

Easysearch 各版本压缩性能对比


根据之前文章的数据,Easysearch v1.1 在处理相同数据时,其索引大小比 Elasticsearch v6.4.3 降低了 50%。但这还不是全部,最新的测试数据更是令人惊艳。

![](https://infinilabs.com/img/blo ... ge.png)

显著的压缩效果:实验数据解析


通过对比不同版本的存储大小,我们更直观地了解到 Easysearch 在压缩方面的优势:

  • Easysearch 的原始版本,未开启压缩:存储大小为 8.7 GB。
  • Easysearch v2 版本:经过第二版压缩后,存储大小显著减少到 2.7 GB。
  • Easysearch v3 版本:第三版压缩后,存储大小进一步减少到 1.4 GB。

    关键观察


    Easysearch 之前提供的压缩版相比原始版本减少了约 69%的存储空间。

    Easysearch v3 版则更为显著,相比原始版本减少了约 84%的存储空间。

    第三版本压缩的秘密武器:数字类型字段的复用


    第三版本压缩能达到如此高的效率,主要是因为在之前第二版对文档原文中 keyword 类型字段复用的基础上,增加了对数字类型字段的复用。这一策略进一步优化了存储结构,显著提高了压缩效率。

    压缩策略:多元化选择


    Easysearch 提供了多种压缩策略,包括 default、best_compression、ZSTD 和 index.source_reuse。其中,ZSTD 和 index.source_reuse 是新引入的压缩策略,能进一步降低索引膨胀率。

    带来的好处


    降低存储成本:显著降低的存储大小意味着在硬件和维护方面的成本将大幅度减少。 提高系统扩展性:更小的数据尺寸意味着在相同的硬件配置下,系统能够处理更多的数据。 数据备份和传输:由于索引文件更小,数据备份和传输的速度也将提升,同时减少带宽需求。

    总结


    Easysearch 在压缩效果上有显著提升,不仅降低了存储成本,还提高了查询性能和系统扩展性。这使得 Easysearch 在大数据环境下成为一种非常具有吸引力的搜索和存储解决方案

    关于 Easysearch


    ![about easysearch](https://www.infinilabs.com/img ... er.png)

    INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

    官网文档:<https://www.infinilabs.com/doc ... gt%3B

    下载地址:<https://www.infinilabs.com/download>;

    原文:https://www.infinilabs.com/blo ... .4GB/

Easysearch 压缩模式深度比较:ZSTD + source_reuse 的优势分析

Easysearchliaosy 发表了文章 • 0 个评论 • 1523 次浏览 • 2023-10-09 17:08 • 来自相关话题

引言


在使用 Easysearch 时,如何在存储和查询性能之间找到平衡是一个常见的挑战。Easysearch 具备多种压缩模式,各有千秋。本文将重点探讨一种特别的压缩模式:zstd + source_reuse,我们最近重新优化了 source_reuse,使得它在吞吐量和存储效率方面都表现出色。

测试概览


测试条件选用了 esrally 工具和 geonames 数据集来进行压力测试。数据集包含了 11396503 条记录,往单个 shard 写入,对以下几种压缩模式进行压测对比:

  • default
  • best_compression
  • zstd
  • zstd + source_reuse

    ![](https://infinilabs.com/img/blo ... ge.png)

    下图是对 CPU 的监控,可以看到各个模式对 CPU 的使用是基本相近的。

  • default
    ![](https://infinilabs.com/img/blo ... e2.png)
  • best_compression
    ![](https://infinilabs.com/img/blo ... e3.png)
  • zstd
    ![](https://infinilabs.com/img/blo ... e4.png)
  • zstd+reuse
    ![](https://infinilabs.com/img/blo ... e5.png)

    关键数据点


    测试结果主要围绕两个指标:

  • 中位吞吐量:单位为“每秒操作数”,数值越大表示性能越好。
  • 存储大小:单位为 “GB”,数值越小表示存储更加高效。

    测试数据如下:
    | 压缩模式 | 中位吞吐量 (docs/s) | 存储大小 (GB) |
    |---|---|---|
    | default | 37834 | 2.7 |
    | best_compression | 37404 | 2.2 |
    | zstd | 38878 | 2.1 |
    | zstd + source_reuse | 38942 | 1.6 |

    zstd + source_reuse:压缩原理


    该模式采用了 source_reuse 压缩算法,该算法通过对 keywordlongintshortboolean 等类型的字段值进行复用,并结合 zstd 压缩算法,大大提高了存储效率。

    压缩效率


    zstd + source_reuse 在存储大小上的表现尤为出色,针对 geonames 数据集只需 1.6 GB 的存储空间,相比于 best_compression 模式的 2.2 GB,压缩效率显著提高


    吞吐量表现


    高压缩率并没有让 zstd + source_reuse 在吞吐量上做出妥协,因为高压缩率使得其需要持久化的数据大大减小,其中位吞吐量为 38942 docs/s,在 4 种模式中表现最好。

    结论


    zstd + source_reuse 压缩模式在存储效率和查询性能之间找到了一种极佳的平衡,强烈推荐各位在使用 Easysearch 时,当存储成本比较敏感时,考虑使用 zstd + source_reuse 压缩模式。无论是在存储成本还是写入性能方面,它都能为你带来显著的优势。

    关于 Easysearch


    ![about easysearch](https://www.infinilabs.com/img ... er.png)

    INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

    官网文档:<https://www.infinilabs.com/doc ... gt%3B

    下载地址:<https://www.infinilabs.com/download>;

    原文:https://www.infinilabs.com/blo ... odes/

社区日报 第1713期 (2023-10-09)

社区日报yuebancanghai 发表了文章 • 0 个评论 • 1153 次浏览 • 2023-10-09 10:55 • 来自相关话题

1. Elasticsearch 8.10 同义词管理新篇章:引入同义词 API
   https://mp.weixin.qq.com/s/4dCRJr1sS-10iMOuNMtFLA
2. Elasticsearch系列---并发控制及乐观锁实现原理
   https://zhuanlan.zhihu.com/p/649371864
3. elasticsearch中的Translog详解 及其参数与调优
   https://zhuanlan.zhihu.com/p/648751324
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili