要不要也来分享分享一下啊

社区日报 第1692期 (2023-08-25)

社区日报laoyang360 发表了文章 • 0 个评论 • 987 次浏览 • 2023-08-25 08:16 • 来自相关话题



1、增强搜索功能:部署、优化和扩展 Elasticsearch 的 DevOps 之旅
https://itgix.com/case-studies ... Dpost

2、[视频]如何使用 Docker Secrets 保护 Elasticsearch 8.9 集群 - 第 1 部分(梯子)
https://www.youtube.com/watch?v=NnmeXCjPpaM

3、文本搜索与矢量搜索:一起使用效果更好?(梯子)
https://towardsdatascience.com ... 6132a


编辑:铭毅天下
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

社区日报 第1691期 (2023-08-24)

社区日报Se7en 发表了文章 • 0 个评论 • 1059 次浏览 • 2023-08-24 09:38 • 来自相关话题

1.通过 40 个案例来学习 Elasticsearch(需要梯子)
https://medium.com/%40learnrep ... f80db
2.Shopify 是如何在 Kubernetes 上管理 Elasticsearch 的(需要梯子)
https://www.youtube.com/watch% ... D792s
3.介绍 Elasticsearch Rust client(需要梯子)
https://www.youtube.com/watch?v=U_P27x-gYKc

编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

社区日报 第1690期 (2023-08-23)

社区日报kin122 发表了文章 • 0 个评论 • 1038 次浏览 • 2023-08-23 16:32 • 来自相关话题

1.如何在 Elasticsearch 中将矢量搜索与过滤结合起来 - Python 8.x
https://blog.csdn.net/UbuntuTo ... 32809
2. ES 查询概念大全(需要梯子)
https://medium.com/%40abhirup. ... 0b097
3.ES 查询语句概念梳理(需要梯子)
https://medium.com/elasticsear ... bf455

编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

Easysearch 跨集群复制实战

Easysearchyangmf2040 发表了文章 • 1 个评论 • 1268 次浏览 • 2023-08-22 17:28 • 来自相关话题

在之前的文章中,有通过[极限网关实现容灾](http://www.infinilabs.com/blog ... teway/)的案例。今天给大家介绍 Easysearch 的跨集群复制功能。该功能可在集群之间复制数据,应用场景包括但不限于以下举例:

  • 灾备同步:将数据同步到灾备中心,灾备中心可对外提供查询服务。
  • 读写分离:单一集群读写压力都较大时,为了避免读写互相干扰造成性能降级,可将读压力分流到另外的集群。
  • 就近查询:在多地中心之间复制数据,应用只需连接本地 ES 集群读取数据,避免网络延时和干扰。

    跨集群复制使用 active-passive 模型,由目标集群主动拉取数据变化到本地,因此对源集群影响很小。

    先决条件


  • 源集群和目标集群都必须安装 cross-cluster-replication 和 index-management 插件。安装插件参考[这里](https://www.infinilabs.com/doc ... 3%2585)。
  • 如果目标集群的 easysearch.yml 文件中覆盖了 node.roles,确保它也包括 remote_cluster_client 角色,默认已启用。

    演示环境


  • 源集群( leader 集群 ): 192.168.3.45:9200
  • 目标集群( follower 集群 ): 192.168.3.39:9200
  • 两个集群都已启用 security 功能。

    设置集群间证书互信


    将两个集群的证书合并到一个文件,将文件放到 config 目录下。

    yaml<br /> cat ca-A.crt ca-B.crt > trust-chain.pem<br />

    更新 easysearch.yml 文件,变化如下。

    ```yaml

    security.ssl.transport.ca_file: ca.crt

    security.ssl.transport.ca_file: trust-chain.pem
    ```

    设置跨群集连接


    在目标集群建立源集群的连接信息。在 INFINI console 的[开发工具](https://www.infinilabs.com/doc ... tools/)中,选中目标集群,执行以下命令。

    yaml<br /> PUT /_cluster/settings?pretty<br /> {<br /> "persistent": {<br /> "cluster": {<br /> "remote": {<br /> "primary": {<br /> "seeds": ["192.168.3.45:9300"]<br /> }<br /> }<br /> }<br /> }<br /> }<br />

    开始复制


    首先在源集群创建测试索引 test , 并向索引写入数据。如果有测试索引,此步可省略。

    yaml<br /> POST /_bulk?pretty<br /> { "index" : { "_index" : "test", "_id" : "1" } }<br /> { "field1" : "value1" }<br /> { "create" : { "_index" : "test", "_id" : "2" } }<br /> { "field2" : "value2" }<br />

    然后在目标集群,创建一个名为 follower-test 的索引来复制源集群中 test 索引的内容。follower-test 可更换成自己想要的名字。

    yaml<br /> PUT /_replication/follower-test/_start?pretty<br /> {<br /> "leader_alias": "primary",<br /> "leader_index": "test",<br /> "use_roles":{<br /> "leader_cluster_role": "cross_cluster_replication_leader_full_access",<br /> "follower_cluster_role": "cross_cluster_replication_follower_full_access"<br /> }<br /> }<br />

  • leader_alias 指定之前创建的连接名称 primary 。
  • leader_index 指定想要复制的索引名称 test 。
  • use_roles 指定用什么角色访问对应的集群,为了安全使用最小权限,命令中的角色是系统自带的。

    命令执行完后,会在目标集群建立名为 follower-test 的索引,其内容来自源集群的 test 索引。 我们可以看到,其内容就是之前插入的两个文档。
    ![](https://infinilabs.com/img/blo ... /1.png)

    确认复制状态


    可以看到 follow-test 处于同步的状态会实时同步远端的数据。

    yaml<br /> GET /_replication/follower-test/_status?pretty<br />

    ![](https://infinilabs.com/img/blo ... /2.png)
    在源集群再插入数据,看是否会同步。

    yaml<br /> POST /_bulk?pretty<br /> { "index" : { "_index" : "test", "_id" : "3" } }<br /> { "field3" : "value3" }<br /> { "create" : { "_index" : "test", "_id" : "4" } }<br /> { "field4" : "value4" }<br />

    目标集群查询索引,文档 3 和 4 已同步。
    ![](https://infinilabs.com/img/blo ... /3.png)

    暂停和恢复复制


    如果需要停机维护或其他原因想暂停复制功能,可使用暂停和恢复索引复制。

    暂停


    暂停目标集群上的索引复制。源集群索引再有新的变化,不会进行同步。

    yaml<br /> POST /_replication/follower-test/_pause?pretty<br /> {}<br />

    暂停后查看索引复制状态为 PAUSED 。

    yaml<br /> GET /_replication/follower-test/_status?pretty<br />

    ![](https://infinilabs.com/img/blo ... /4.png)

    恢复


    恢复目标集群上的索引复制。

    yaml<br /> POST /_replication/follower-test/_resume?pretty<br /> {}<br />

    停止复制


    为了保证数据的一致性,目标集群上的 follower 索引都是只读的。如果要切换到可读写的状态,需要先停止复制。我们先直接写入数据,会报禁止该操作。
    ![](https://infinilabs.com/img/blo ... /5.png)
    停止复制
    执行停止复制命令,索引变为可读写状态,一个独立状态,不再会从源端复制内容。想要删除索引之前,也要先停止复制。

    yaml<br /> POST /_replication/follower-test/_stop?pretty<br /> {}<br />

    再次写入数据测试,成功。
    ![](https://infinilabs.com/img/blo ... /6.png)

    自动跟随


    前面给大家演示了单个索引的复制操作,对于每天自动创建一个索引的场景(日期后缀),这样的操作不免太麻烦了。跨集群复制的自动跟随功能,可以在目标集群建立一个复制模式,如果源集群新建索引名称匹配该模式,目标集群会自动创建一个索引来复制它。

    创建复制模式
    先在目标集群建立一个复制模式,模式名叫 nginx-index ,会自动复制源集群上 nginx 开头的索引。

    yaml<br /> POST /_replication/_autofollow?pretty<br /> {<br /> "leader_alias" : "primary",<br /> "name": "nginx-index",<br /> "pattern": "nginx*",<br /> "use_roles":{<br /> "leader_cluster_role": "cross_cluster_replication_leader_full_access",<br /> "follower_cluster_role": "cross_cluster_replication_follower_full_access"<br /> }<br /> }<br /> <br />

    源集群创建 nginx 开头的索引。

    yaml<br /> POST /nginx-1/_doc/<br /> {<br /> "test":"test"<br /> }<br /> <br /> POST /nginx-2/_doc/<br /> {<br /> "test":"test2"<br /> }<br />

    目标集群查看复制结果。
    ![](https://infinilabs.com/img/blo ... /7.png)

    停止自动跟随


    如果不想复制新创建 nginx 开头的索引,可以使用停止跟随。停止自动跟随仅仅停止任何新的自动跟随活动,不会停止现存自动跟随启动的复制。

    yaml<br /> DELETE /_replication/_autofollow?pretty<br /> {<br /> "leader_alias" : "primary",<br /> "name": "nginx-index"<br /> }<br /> <br />

    上述命令不会影响目标集群上 nginx-1 和 nginx-2 索引的复制。而且 nginx-1 和 nginx-2 索引是只读的,如果要切换到读写状态,先停止复制。

    yaml<br /> POST /_replication/nginx-1/_stop?pretty<br /> {}<br />

    小结


    这次实战主要演示了跨集群复制的操作过程:

    1. 建立证书互信
    2. 目标集群创建跨集群连接
    3. 开始复制:单索引或自动跟随复制
    4. 管理复制:暂停、查看状态、恢复、停止、删除自动跟随

      好的,这次跨集群复制实战就到这里了,更多的内容大家可参考[官方文档](https://www.infinilabs.com/doc ... r_api/)。如遇到问题,可以通过微信群、[Discord](https://discord.com/channels/1 ... 966313) 联系我们。

      关于 Easysearch

      ![about easysearch](https://www.infinilabs.com/img ... er.png)

      INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

      官网文档:<https://www.infinilabs.com/doc ... gt%3B

      下载地址:<https://www.infinilabs.com/download>;

社区日报 第1689期 (2023-08-22)

社区日报God_lockin 发表了文章 • 0 个评论 • 922 次浏览 • 2023-08-22 13:45 • 来自相关话题


1. 拿向量引擎配合ES做过滤了吗(需要梯子)
https://medium.com/%40fatihsat ... 8d179
2. 在K8S里部署ES全家(需要梯子)
https://medium.com/%40KushanJa ... d6531
3. 通过dump json的方式做ES合mongodb的备份方案(需要梯子)
https://medium.com/%40aivinsol ... a5d65

编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
 

社区日报 第1688期 (2023-08-21)

社区日报yuebancanghai 发表了文章 • 0 个评论 • 867 次浏览 • 2023-08-21 19:38 • 来自相关话题

1. ElasticSearch高级篇(数据聚和、自动补全、数据同步、分片集群)
   https://blog.csdn.net/fengxian ... 15858
2. ElasticSearch分片不均匀,集群负载不均衡
   https://blog.csdn.net/qq_20545 ... 49335
3. 如何用 Elasticsearch 实现“图搜图”
   https://mp.weixin.qq.com/s/PgY035gC_BfU-AG4cO6NtQ
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

这个是不是多余的代码

回复

ElasticsearchCharele 发起了问题 • 1 人关注 • 0 个回复 • 1193 次浏览 • 2023-08-19 13:10 • 来自相关话题

社区日报 第1687期 (2023-08-18)

社区日报laoyang360 发表了文章 • 0 个评论 • 856 次浏览 • 2023-08-18 22:18 • 来自相关话题


1、Elasticsearch  ESQL解读
https://www.elastic.co/cn/blog ... -esql

2、Elasticsearch vs OpenSearch 对比视频解读
https://www.elastic.co/cn/blog ... e-gap

3、Elasticsearch 预先加载数据的多种方案
https://www.elastic.co/cn/blog ... taset

编辑:铭毅天下
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

请教一个关于关注列表用户搜索的场景问题

Elasticsearchzcc_vv 回复了问题 • 2 人关注 • 1 个回复 • 1032 次浏览 • 2023-08-18 18:53 • 来自相关话题

elasticsearch 缺乏足够的无分段虚拟地址空间,导致集群故障,请问有什么优化方案吗

ElasticsearchFFFrp 回复了问题 • 3 人关注 • 2 个回复 • 1112 次浏览 • 2023-08-25 10:48 • 来自相关话题

比FST还要快的东东?

回复

ElasticsearchCharele 发起了问题 • 1 人关注 • 0 个回复 • 1083 次浏览 • 2023-08-17 14:05 • 来自相关话题

社区日报 第1686期 (2023-08-17)

社区日报Se7en 发表了文章 • 0 个评论 • 996 次浏览 • 2023-08-17 09:15 • 来自相关话题

1.如何在 ElasticSearch 结合过滤与向量搜索(需要梯子)
https://medium.com/%40fatihsat ... 8d179
2.Elasticsearch 通过路由提升聚合性能(需要梯子)
https://medium.com/%40kulekci/ ... 1e12d
3.优化 Elasticsearch 以实现大容量数据摄取(需要梯子)
https://medium.com/%40yannvds/ ... ee574

编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

使用 Logstash 同步 MySQL 到 Easysearch

Easysearchyangmf2040 发表了文章 • 0 个评论 • 967 次浏览 • 2023-08-17 00:49 • 来自相关话题

从 MySQL 同步数据到 ES 有多种方案,这次我们使用 ELK 技术栈中的 Logstash 来将数据从 MySQL 同步到 Easysearch 。

方案前提


  1. MySQL 表记录必须有主键,比如 id 字段。通过该字段,可将 Easysearch 索引数据与 MySQL 表数据形成一对一映射关系,支持修改。
  2. MySQL 表记录必须有时间字段,以支持增量同步。

    如果上述条件具备,便可使用 logstash 定期同步新写入或修改后的数据到 Easysearch 中。

    方案演示

    版本信息

    MySQL: 5.7
    Logstash: 7.10.2
    Easysearch: 1.5.0

    MySQL 设置

    创建演示用的表。
    yaml<br /> CREATE DATABASE es_db;<br /> USE es_db;<br /> DROP TABLE IF EXISTS es_table;<br /> CREATE TABLE es_table (<br /> id BIGINT(20) UNSIGNED NOT NULL,<br /> PRIMARY KEY (id),<br /> UNIQUE KEY unique_id (id),<br /> client_name VARCHAR(32) NOT NULL,<br /> modification_time TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,<br /> insertion_time TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP<br /> );<br />
    说明

    • id 字段: 主键、唯一键,将作为 Easysearch 索引中的 doc id 字段。
    • modification_time 字段: 表记录的插入和修改都会记录在此。
    • client_name: 代表用户数据。
    • insertion_time: 可省略,用来记录数据插入到 MySQL 数据的时间。

      插入数据

      yaml<br /> INSERT INTO es_table (id, client_name) VALUES (1, 'test 1');<br /> INSERT INTO es_table (id, client_name) VALUES (2, 'test 2');<br /> INSERT INTO es_table (id, client_name) VALUES (3, 'test 3');<br />

      Logstash

      配置文件
      yaml<br /> input {<br /> jdbc {<br /> jdbc_driver_library => "./mysql-connector-j-8.1.0/mysql-connector-j-8.1.0.jar"<br /> jdbc_driver_class => "com.mysql.jdbc.Driver"<br /> jdbc_connection_string => "jdbc:mysql://192.168.56.3:3306/es_db"<br /> jdbc_user => "root"<br /> jdbc_password => "password"<br /> jdbc_paging_enabled => true<br /> tracking_column => "unix_ts_in_secs"<br /> use_column_value => true<br /> tracking_column_type => "numeric"<br /> last_run_metadata_path => "./.mysql-es_table-sql_last_value.yml"<br /> schedule => "*/5 * * * * *"<br /> statement => "SELECT *, UNIX_TIMESTAMP(modification_time) AS unix_ts_in_secs FROM es_table WHERE (UNIX_TIMESTAMP(modification_time) > :sql_last_value AND modification_time < NOW()) ORDER BY modification_time ASC"<br /> }<br /> jdbc {<br /> jdbc_driver_library => "./mysql-connector-j-8.1.0/mysql-connector-j-8.1.0.jar"<br /> jdbc_driver_class => "com.mysql.jdbc.Driver"<br /> jdbc_connection_string => "jdbc:mysql://192.168.56.3:3306/es_db"<br /> jdbc_user => "root"<br /> jdbc_password => "password"<br /> schedule => "*/5 * * * * *"<br /> statement => "SELECT count(*) AS count,'es_table' AS table_name from es_table"<br /> }<br /> }<br /> filter {<br /> if ![table_name] {<br /> mutate {<br /> copy => { "id" => "[@metadata][_id]"}<br /> remove_field => ["@version", "unix_ts_in_secs","@timestamp"]<br /> add_field => { "[@metadata][target_index]" => "mysql_es_table" } }<br /> } else {<br /> mutate { <br /> add_field => { "[@metadata][target_index]" => "table_counts" } <br /> remove_field => ["@version"]<br /> }<br /> uuid {<br /> target => "[@metadata][_id]"<br /> overwrite => true<br /> }<br /> }<br /> }<br /> output {<br /> elasticsearch {<br /> hosts => ["<a href="https://localhost:9200"" rel="nofollow" target="_blank">https://localhost:9200"</a>]<br /> user => "admin"<br /> password => "f0c6fc61fe5f7b084c00"<br /> ssl_certificate_verification => "false"<br /> index => "%{[@metadata][target_index]}"<br /> manage_template => "false"<br /> document_id => "%{[@metadata][_id]}"<br /> }<br /> }<br />

    • 每 5 秒钟同步一次 es_table 表的数据到 mysql_sync_idx 索引。
    • 每 5 秒统计一次 es_table 表的记录条数到 table_counts 索引,用于监控。

      启动 logstash

      yaml<br /> ./bin/logstash -f sync_es_table.conf<br />
      查看同步结果, 3 条数据都已同步到索引。
      ![](https://www.infinilabs.com/img ... /1.png)
      Mysql 数据库新增记录
      yaml<br /> INSERT INTO es_table (id, client_name) VALUES (4, 'test 4');<br />
      Easysearch 确认新增
      ![](https://www.infinilabs.com/img ... /2.png)

      Mysql 数据库修改记录
      yaml<br /> UPDATE es_table SET client_name = 'test 0001' WHERE id=1;<br />
      Easysearch 确认修改
      ![](https://www.infinilabs.com/img ... /3.png)

      删除数据

      Logstash 无法直接删除操作到 ES ,有两个方案:

  3. 在表中增加 is_deleted 字段,实现软删除,可达到同步的目的。查询过滤掉 is_deleted : true 的记录,后续通过脚本等方式定期清理 is_deleted : true 的数据。
  4. 执行删除操作的程序,删除完 MySQL 中的记录后,继续删除 Easysearch 中的记录。

    同步监控

    数据已经在 ES 中了,我们可利用 INFINI Console 的数据看板来监控数据是否同步,展示表记录数、索引记录数及其变化。
    ![](https://www.infinilabs.com/img ... /4.png)

TieredMergePolicy中的为什么当hitTooLarge为true时,skew设为最优值

LuceneCharele 回复了问题 • 2 人关注 • 1 个回复 • 993 次浏览 • 2023-08-16 23:34 • 来自相关话题

社区日报 第1685期 (2023-08-16)

社区日报kin122 发表了文章 • 0 个评论 • 762 次浏览 • 2023-08-16 16:06 • 来自相关话题

1.ES的文档关联度算法解析(需要梯子)
https://medium.com/%40_niteshs ... 74004
2.‘Cycle detected for pipeline: main-pipeline’报错探究(需要梯子)
https://medium.com/%40musabdog ... f993d
3.搜文本搜位置搜图片,1小时玩转阿里云 Elasticsearch
https://blog.csdn.net/UbuntuTo ... 89544

编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili