社区日报 第1649期 (2023-06-19)
社区日报 • yuebancanghai 发表了文章 • 0 个评论 • 2582 次浏览 • 2023-06-19 14:39
https://www.jianshu.com/p/f2a5001edd36
2. ElasticSearch 亿级数据检索深度优化
https://baijiahao.baidu.com/s% ... %3Dpc
3. 掌握它才说明你真正懂Elasticsearch
https://zhuanlan.zhihu.com/p/65075215
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
Easysearch 跨版本兼容性测试,还原 Elasticsearch 各版本快照数据
Easysearch • liaosy 发表了文章 • 0 个评论 • 3669 次浏览 • 2023-06-17 12:50
本文主要测试验证 Elasticsearch 各版本快照在 [Easysearch](https://www.infinilabs.com/doc ... erview) 中进行数据恢复。
准备测试数据
索引

别名

模版

生命周期策略

创建快照
<br /> PUT /_snapshot/my_backup<br /> {<br /> "type": "fs",<br /> "settings": {<br /> "location": "/infini/test/es_backup"<br /> }<br /> }<br /> <br /> PUT /_snapshot/my_backup/snapshot_1<br /> {<br /> "indices": "*",<br /> "ignore_unavailable": false,<br /> "include_global_state": false<br /> }<br /> <br /> GET /_snapshot/my_backup/snapshot_1<br />
- ignore_unavailable:如果 indices 列表中的索引不存在,则是否忽略该索引而不是使快照失败。默认值为 false 。
- include_global_state:是否在快照中包含集群状态(包括索引模版、生命周期配置、持久化配置等)。默认值为 true ,建议设为 false。
恢复快照
<br /> POST /_snapshot/my_backup/snapshot_1/_restore<br /> {<br /> "indices": "*",<br /> "ignore_unavailable": false,<br /> "include_global_state": false,<br /> "include_aliases": true,<br /> "ignore_index_settings": [<br /> "index.lifecycle.indexing_complete"<br /> ]<br /> }<br />
- ignore_unavailable:如果 indices 列表中的索引不存在,则是否忽略该索引而不是使还原操作失败。默认值为 false 。
- include_global_state:是否还原群集状态。默认值为 false 。
- include_aliases:是否恢复别名及其关联索引。默认值为 true 。
- index.lifecycle.indexing_complete 配置不支持,忽略掉。
数据验证
索引

通过 gateway 进行数据比对
```
path.data: data
path.logs: log
show progress bar
progress_bar.enabled: true
elasticsearch:- name: source
enabled: true
endpoints:
- name: target
enabled: true
endpoints:
- https://192.168.3.185:9205
basic_auth:
username: admin
password: admin
pipeline:
- https://192.168.3.185:9205
- name: index_diff_service
auto_start: true
processor:
- dag:
mode: wait_all
parallel:
- dump_hash: #dump es1's doc
sort_document_fields: true
indices: ".infini_activities-000004" ##需要比对的索引名
scroll_time: "10m"
elasticsearch: "source"
query_string: "_id:c8es70pu46lgfdgmja9g-1646117763293610802-2"
fields: "doc_hash"
output_queue: "source_docs"
batch_size: 5000
slice_size: 1hash_func: "xxhash64"
- dump_hash: #dump es2's doc
indices: ".infini_activities-000004"
scroll_time: "10m"
fields: "doc_hash"
query_string: "_id:c8es70pu46lgfdgmja9g-1646117763293610802-2"
batch_size: 5000
slice_size: 1hash_func: "xxhash64"
elasticsearch: "target"
output_queue: "target_docs"
end: - index_diff:
diff_queue: "diff_result"
buffer_size: 10
text_report: true #如果要存 es,这个开关关闭,开启 pipeline 的 diff_result_ingest 任务
source_queue: "source_docs"
target_queue: "target_docs"
pipeline:
- name: diff_result_ingest
processor:
- json_indexing:
index_name: "diff_result"
elasticsearch: "source"
input_queue: "diff_result"
```
./gateway-linux-amd64 -config data_check.yml

别名

模版
<br /> PUT _template/.infini_activities-rollover<br /> {<br /> "order": 100000,<br /> "index_patterns": [<br /> ".infini_activities*"<br /> ],<br /> "settings": {<br /> "index": {<br /> "format": "7",<br /> "lifecycle": {<br /> "name": "ilm_.infini_metrics-30days-retention",<br /> "rollover_alias": ".infini_activities"<br /> },<br /> "codec": "best_compression",<br /> "number_of_shards": "1",<br /> "translog": {<br /> "durability": "async"<br /> }<br /> }<br /> },<br /> "mappings": {<br /> "dynamic_templates": [<br /> {<br /> "strings": {<br /> "mapping": {<br /> "ignore_above": 256,<br /> "type": "keyword"<br /> },<br /> "match_mapping_type": "string"<br /> }<br /> }<br /> ]<br /> },<br /> "aliases": {}<br /> }<br /> <br /> PUT _template/.infini<br /> {<br /> "order": 0,<br /> "index_patterns": [<br /> ".infini_*"<br /> ],<br /> "settings": {<br /> "index": {<br /> "max_result_window": "10000000",<br /> "mapping": {<br /> "total_fields": {<br /> "limit": "20000"<br /> }<br /> },<br /> "analysis": {<br /> "analyzer": {<br /> "suggest_text_search": {<br /> "filter": [<br /> "word_delimiter"<br /> ],<br /> "tokenizer": "classic"<br /> }<br /> }<br /> },<br /> "number_of_shards": "1"<br /> }<br /> },<br /> "mappings": {<br /> "dynamic_templates": [<br /> {<br /> "strings": {<br /> "mapping": {<br /> "ignore_above": 256,<br /> "type": "keyword"<br /> },<br /> "match_mapping_type": "string"<br /> }<br /> }<br /> ]<br /> },<br /> "aliases": {}<br /> }<br />
生命周期策略
<br /> PUT _ilm/policy/ilm_.infini_metrics-30days-retention<br /> {<br /> "policy": {<br /> "phases": {<br /> "hot": {<br /> "min_age": "0ms",<br /> "actions": {<br /> "rollover": {<br /> "max_size": "50gb",<br /> "max_age": "30d"<br /> },<br /> "set_priority": {<br /> "priority": 100<br /> }<br /> }<br /> },<br /> "delete": {<br /> "min_age": "30d",<br /> "actions": {<br /> "delete": {<br /> }<br /> }<br /> }<br /> }<br /> }<br /> }<br />
注:不支持 "delete_searchable_snapshot": true 配置
测试结果
| 源集群(Elasticsearch) | 目标集群(Easysearch) | 测试结果 |
| ----------------------- | ---------------------- | -------------------------- |
| 7.10.2 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.10.1 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.10.0 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.9.2 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.9.0 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.8.1 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.5.2 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 6.8.12 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 6.5.4 | 1.0.0 | 索引文档一致,别名恢复成功 |
关于 Easysearch

INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。 Easysearch 衍生自基于开源协议 Apache 2.0 的 Elasticsearch 7.10 版本。 Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。
详情参见:[官方文档](https://www.infinilabs.com/doc ... erview)
- dump_hash: #dump es1's doc
- dag:
- name: source
seqNo新建文档时值特别大,且并发修改时大量VersionConflicEngineException
Elasticsearch • Charele 回复了问题 • 2 人关注 • 2 个回复 • 3253 次浏览 • 2023-06-27 22:58
极限科技旗下软件产品 INFINI Easysearch 通过统信 UOS 认证
Easysearch • liaosy 发表了文章 • 0 个评论 • 3069 次浏览 • 2023-06-16 17:10
近日,极限数据 (北京) 科技有限公司(以下简称:极限科技)旗下的软件 INFINI Easysearch 搜索引擎软件 V1.0 通过统信 UOS 服务器操作系统 V20 认证。
此次兼容适配基于统信 UOS 服务器操作系统 V20,联合国产 CPU:海光 5000、海光 7000、兆芯 KH-30000、兆芯 KH20000、兆芯 ZX-C+ 等系列处理器,经过共同严格测试表明 INFINI Easysearch 搜索引擎软件 V1.0 整体运行稳定,满足功能及兼容性测试要求,并获得通用软硬件适配认证中心联合认证证书。


统信软件是以“打造中国操作系统创新生态”为使命的中国基础软件公司。基于国产芯片架构的操作系统产品已经和龙芯、飞腾、申威、鲲鹏、兆芯、海光等芯片厂商开展了广泛和深入的合作,与国内各主流整机厂商及软件厂商展开了全方位的兼容性适配工作。

极限科技研发的 INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,同时也是一款具备自主可控的分布式近实时搜索型数据库产品,具备高性能、高可用、弹性伸缩、高安全性等特性,具备支持丰富的个性化搜索及聚合分析能力,可部署在物理机、虚拟机、容器、私有云和公有云,能承载 PB 级别的海量业务数据,为金融核心系统、运营商、制造业和政企业务系统提供安全、稳定、可靠的快速检索和实时数据探索分析能力,可满足不同业务场景的各项复杂需求。
此次通过统信 UOS 的兼容适配联合认证,标志着极限科技在支持国产化方面又迈出关键一步。此外,Easysearch 也实现了对麒麟、欧拉等国产操作系统的支持。未来,极限科技将积极参与国产创新技术生态的建设,坚持自主可控安全可靠,深化对国产化软硬件技术栈的支持能力,为用户提供更加优质、稳定、高效、安全的产品与服务。
关于极限科技(INFINI Labs)

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
详情参见官网:[https://www.infinilabs.com](https://www.infinilabs.com)
社区日报 第1648期 (2023-06-15)
社区日报 • Se7en 发表了文章 • 0 个评论 • 2834 次浏览 • 2023-06-15 21:57
https://medium.com/%40jeevanan ... 06005
2.使用 Ingest Pipeline 在 Elasticsearch 中对数据进行预处理
https://mp.weixin.qq.com/s/kt70DSaNupcF7IsKP9YHXg
3.千呼万唤始出来 - Elastic AI助手尝鲜体验!
https://cloud.tencent.com/deve ... 96144
编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
各位大佬有没有ES/Lucene原理和开发相关的讨论群聊
Elasticsearch • liaosy 回复了问题 • 2 人关注 • 1 个回复 • 3031 次浏览 • 2023-06-16 17:12
社区日报 第1647期 (2023-06-14)
社区日报 • kin122 发表了文章 • 0 个评论 • 2997 次浏览 • 2023-06-14 21:38
https://blog.csdn.net/UbuntuTo ... 42269
2.Elasticsearch:部署 ELSER - Elastic Learned Sparse EncoderR
https://blog.csdn.net/UbuntuTo ... 80664
3.Elasticsearch:二进制数据类型 - binary field
https://blog.csdn.net/UbuntuTo ... 52677
编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
社区日报 第1646期 (2023-06-13)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 3124 次浏览 • 2023-06-13 16:26
1. ELK + KFK,日志系统搞起来!(需要梯子)
https://medium.com/%40umitulke ... f68bb
2. ELK操作备忘录(需要梯子)
https://gamzeyilan1.medium.com ... 2a1c3
3. 多数据源同步攻略(需要梯子)
https://medium.com/%40ketansom ... b5ed6
编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
社区日报 第1645期 (2023-06-12)
社区日报 • yuebancanghai 发表了文章 • 0 个评论 • 3144 次浏览 • 2023-06-12 14:57
https://zhuanlan.zhihu.com/p/164970344
2. Elasticsearch shard 分配感知
https://blog.csdn.net/UbuntuTo ... 21365
3. Elasticsearch 内存占用分析及 page cache 监控
https://zhuanlan.zhihu.com/p/411417987
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
京东数据安全JAVA招聘
求职招聘 • qinpengfei 发表了文章 • 0 个评论 • 4139 次浏览 • 2023-06-11 18:17
京东集团汇聚零售、物流、健康、科技、金融等丰富的业务场景,是国内最具影响力和正向价值的新型实体企业。我们的团队不仅负责数据安全前沿技术研究,还承担了集团各业务线的数据安全服务职责,致力于用先进、高效的技术手段消除数据安全风险,提升京东数亿用户、数百万生态合作伙伴、数十万京东体系员工的数据安全服务体验。京东平台拥有高并发、多业务的复杂场景,为技术深度优化、个人核心竞争力的形成提供了最佳实践可能。这里有多元化、讲逻辑、友爱、创新的团队,更是一块理想的实战场地,舞台广阔,欢迎有技术、有情怀的你来尽情施展,和同频的人同行,一起做有价值的事情!
岗位职责:
• 负责京东数据安全产品的系统设计,核心功能开发和维护工作;
• 对系统有整体宏观的思考,规划形成统一的平台和组件;
• 负责技术难点攻关,持续对线上系统进行性能优化及稳定性提升;
• 拆解产品需求,提出技术实现方案和步骤;
• 参与知识传播及技术分享,促进团队成员共同进步。
岗位任职要求:
• 3年以上互联网领域的设计与开发经验,具备扎实的开发基础,精通一种开发语言(Java,Go);
• 熟练掌握IO、多线程开发技术,对事务、锁、并发等实现机制有深入了解;
• 熟练使用Spring、Spring MVC等框架,并对框架原理有一定了解;
• 熟悉SOA架构,对RPC、序列化、服务治理有相应了解;
• 熟悉常用数据库软件(MySQL)的原理和使用,熟悉常用ORM和连接池组件,对数据库的优化有一定的理解;
• 熟悉计算机网络基础原理、了解常用网络通信协议;
• 热爱技术,对技术有不懈的追求,喜欢研究开源代码,良好的学习能力、团队协作能力和沟通能力。
具备以下者优先:
• 具备丰富的大型互联网系统设计经验,熟悉分布式、缓存、消息、负载均衡等机制和实现,具备海量数据研发和处理经验优先;
• 具备数据安全相关基础设施、平台的设计和研发经验者优先;
岗位亮点:
• 技术栈丰富,可参与高并发、高性能、高可用、大数据系统的开发建设,掌握各环节核心技术要素,和团队一起对系统能力进行升级和迭代;
• 接触前沿技术,可参与零信任项目,和行业大佬一起共事,日处理亿级别调用量,有机会为全公司各个业务线提供服务;
• 技术挑战性高,公司具有极其丰富的业务场景、数据场景和海量数据规模;
【INFINI Workshop 北京站】 一起动手实验,在实践中掌握 Easysearch!名额有限,欢迎大家免费报名参加。
活动 • liaosy 发表了文章 • 0 个评论 • 3353 次浏览 • 2023-06-10 16:59
一起动手实验,在实践中掌握 Easysearch!名额有限,欢迎大家免费报名参加。
报名邮箱:jiayi@infinilabs.com (或 在线报名 )
时间:2023-06-15 13:30 ~ 17:30
地点:北京 - WeWork 辉煌时代大厦 3 楼 3E 会议室
INFINI Labs 产品更新 | Easysearch 新增跨集群复制 (CCR)、支持快照生命周期管理 (SLM) 功能等
资讯动态 • liaosy 发表了文章 • 0 个评论 • 4469 次浏览 • 2023-06-10 13:13

INFINI Labs 产品重量级更新!!!本次更新了很多亮点功能,如 Easysearch 新增跨集群复制 (CCR)、支持快照生命周期管理 (SLM) 功能等;支持多集群、跨版本的搜索基础设施统一管控平台 Console 新增了免费授权申请功能等。欢迎大家下载使用。
Console 在线体验:[http://demo.infini.cloud](http://demo.infini.cloud) (用户名/密码:readonly/readonly)。
INFINI Easysearch v1.2.0
INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 衍生自基于开源协议 Apache 2.0 的 Elasticsearch 7.10 版本。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。
Easysearch 本次更新如下:
Features
- 正式发布快照生命周期管理 (SLM) API, 支持定时备份和删除快照,以及保留快照的个数
- 增加跨集群复制 (Cross-cluster replication) 功能:
- 支持手动或自动复制索引
- 支持暂停和恢复复制索引
- 支持取消指定索引的跨集群复制
Bug Fix
- 支持手动或自动复制索引
- security 模块修复缺少某些角色验证属性的问题
Improvements
- 兼容 ES6.0 版本的索引
INFINI Gateway v1.15.0
INFINI Gateway 是一个面向搜索场景的高性能数据网关,所有请求都经过网关处理后再转发到后端的搜索业务集群。基于 INFINI Gateway,可以实现索引级别的限速限流、常见查询的缓存加速、查询请求的审计、查询结果的动态修改等等。
Gateway 本次更新如下:
Features
- 增加 auto_generate_doc_id 在线过滤器,支持 index 自动生成 _id
Bug Fix
- 修复 floating_ip 错误抢占的问题
- 修复 elasticsearch 对 x-forwarded-for 的错误覆盖问题
- 修复 queue_consumer 在队列没有消息时高 CPU 占用的问题
INFINI Console v1.3.0
INFINI Console 是一款非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管, 企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。
Console 本次更新如下:
Features
- 数据看板新增新增 Dashboard 导入导出功能

- 数据看板表格组件 UI 调整,并新增排序功能
- 数据看板组件支持多指标(折线图、面积图、柱状图、条形图)

- 数据迁移新增增量迁移、定时运行功能
- 数据比对新增增量比对、定时运行功能

更多参见:[增量数据迁移介绍](https://infinilabs.com/blog/2023/data-migration/)
- 监控报表新增索引,节点健康状态指标
- 新增免费授权申请功能

- 新增 Agent 管理功能
- Agent 注册以及基本信息修改
- 查看 Agent 主机 ES 进程信息,进程关联到已注册集群后,自动采集该 ES 集群指标及日志
- 通过 Agent 查看 ES 节点日志
- Agent 支持 Linux 平台脚本一键安装

更多参见 :[Agent 管理功能介绍](https://www.infinilabs.com/doc ... anage/)
Bug fix
- Agent 注册以及基本信息修改
- 修复没给菜单权限,左侧菜单依然显示的问题
- 修复删除数据看板 Dashboard 时 url 中 id 不更新的问题
- 修复数据看板指标字段搜索无数据的问题
- 修复数据探索切换索引(视图)时报错的问题
- 修复数据探索切换时间字段后索引显示不正常的问题
- 修复数据探索切换表格样式的问题
- 修复数据看板框选一个坐标点进行时间过滤时无数据的问题
- 修复数据看板只读用户标签页样式的问题
- 修复数据看板组件放大后进入编辑界面 UI 不正常的问题
Improvements
- 节点监控详情分片列表增加索引写入指标
- 数据看板柱状图和条形图新增配置是否堆叠
- 告警模版添加函数 get_keystore_secret 支持访问 keystore 变量
INFINI Agent v0.5.0
INFINI Agent 是 INFINI Console 的一个可选探针组件,负责采集和上传集群指标和日志等信息,并可通过 Console 管理。Agent 支持主流操作系统和平台,安装包轻量且无任何外部依赖,可以快速方便地安装。
探针 Agent 本次更新如下:
Features
- 支持将 Agent 注册到 Console
- 添加保存配置到动态加载目录接口
Improvements
- 优化自动发现 Elasticsearch 实例进程
- 优化查看 Elasticsearch 实例日志相关 API
期待反馈
欢迎下载体验使用,如果您在使用过程中遇到如何疑问或者问题,欢迎前往 INFINI Labs Github([https://github.com/infinilabs](https://github.com/infinilabs)) 中的对应项目中提交 Feature Request 或提交 Bug。
- INFINI Gateway: [https://github.com/infinilabs/gateway/issues](https://github.com/infinilabs/gateway/issues)
- INFINI Console: [https://github.com/infinilabs/console/issues](https://github.com/infinilabs/console/issues)
- 下载地址: [https://www.infinilabs.com/download](https://www.infinilabs.com/download)
也欢迎大家微信扫码添加小助手(INFINI-Labs),加入用户群讨论,或者扫码加入我们的知识星球一起学习交流。

关于极限科技(INFINI Labs)

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
官网:https://www.infinilabs.com
社区日报 第1644期 (2023-06-09)
社区日报 • laoyang360 发表了文章 • 0 个评论 • 3687 次浏览 • 2023-06-09 14:49
1、使用 Elasticsearch 进行可扩展的语义向量搜索(梯子)
https://medium.com/gsi-technol ... 5ba8e
2、探索 ElasticSearch 中矢量搜索的强大功能(梯子)
https://medium.com/state-of-th ... 6229c
3、Elasticsearch 8 中的矢量搜索视频(梯子)
https://www.youtube.com/watch?v=CM0OSbHTaeA
编辑:铭毅天下
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
ES集群大量写入导致cpu和memory增高,如何排查数据源是哪边?从哪边写入的数据
Elasticsearch • JackMusk 回复了问题 • 3 人关注 • 2 个回复 • 4104 次浏览 • 2023-07-13 19:20