Easysearch 2.0.0 性能测试

INFINI Labs 小助手发表了文章 • 0 个评论 • 9580 次浏览 • 2025-12-04 00:17 • 来自相关话题

概述

Easysearch 2.0.0 正式版带来了显著的性能提升和优化改进。通过与上一个稳定版本 1.15.6 的全面对比测试，我们使用 esrally 基准测试工具在 append-no-conflicts 场景下进行了深入的性能评估。测试结果表明，2.0.0 版本在索引性能、查询延迟、内存管理等核心指标上都实现了突破性改进。

核心性能提升

1. 索引性能更加稳定

写入效率提升 12.81%

Easysearch 2.0.0 索引性能表现更加稳定：

累计索引 CPU 时间（所有主分片）：从 225.1 分钟缩短至 196.3 分钟，减少 28.8 分钟（-12.81%）
索引吞吐量：
- 平均吞吐量从 180,868 docs/s 提升至 190,712 docs/s（+5.44%）
- 最大吞吐量从 198,184 docs/s 提升至 220,460 docs/s（+11.24%）
- 最小吞吐量从 164,263 docs/s 提升至 178,961 docs/s（+8.95%）
  
  累计索引 CPU 时间的减少，表明 2.0.0 版本在索引操作上更加高效，CPU 利用率更优。这意味着在相同硬件条件下，Easysearch 2.0.0 能够更快地完成数据摄入任务，对于需要处理大规模数据写入的场景具有重要意义。
  
  Indexing Throughput (docs/s) - Higher is Better
  
  v1.15.6
  
  180,868
  
  v2.0.0
  
  190,712
  
  ### 2. Refresh 和 Flush 耗时缩短
  
  **Refresh 和 Flush 性能大幅改善**
  
  在 Elasticsearch/Easysearch 中，Refresh 和 Flush 操作对写入性能有直接影响。2.0.0 版本在这两个关键操作上实现了重大优化：
  
  #### Refresh 性能提升 54.46%
累计刷新时间：从 9.14 分钟降至 4.16 分钟
中位刷新时间：减少 61.86%（从 0.133 分钟降至 0.051 分钟）
最大刷新时间：减少 65.62%（从 1.12 分钟降至 0.39 分钟）

Flush 性能提升 40%
累计刷盘时间：从 12.57 分钟降至 7.54 分钟
中位刷盘时间：减少 57.57%
最大刷盘时间：减少 31.93%

Cumulative Refresh Time (min) - Lower is Better

v1.15.6

9.14 min

v2.0.0

4.16 min

Cumulative Flush Time (min) - Lower is Better

v1.15.6

12.57 min

v2.0.0

7.54 min

这些优化使得 Easysearch 2.0.0 能够更高效地将数据持久化到磁盘，同时减少对写入操作的阻塞。

### 3. 垃圾回收（GC）性能优化

**GC 效率显著提升**
Young GC 次数：从 525 次降至 426 次，减少 18.86%
Young GC 时间：从 16.547 秒降至 15.985 秒，减少 3.40%
Old GC：两个版本均无 Old GC 发生，内存管理健康

更少的 GC 次数意味着：
应用程序 STW（Stop-The-World）暂停更少
更稳定的查询响应时间
更好的系统吞吐量

查询性能提升

1. 基础查询延迟降低

多类型查询性能全面提升

| 查询类型 | 延迟指标 | 改进幅度 |
| ---------------- | ------------ | -------------------------------- |
| Default 查询 | 50 分位延迟 | -11.40% (19.97ms → 17.69ms) |
| | 99 分位延迟 | -15.23% (25.66ms → 21.75ms) |
| Term 查询 | 50 分位延迟 | -19.88% (4049ms → 3244ms) |
| | 90 分位延迟 | -18.73% (4137ms → 3362ms) |
| Range 查询 | 50 分位延迟 | -31.71% (42.19ms → 28.81ms) |
| | 100 分位延迟 | -64.68% (111.42ms → 39.35ms) |

Query Latency Improvements (ms) - Lower is Better

Default Query (50th percentile)

v1.15.6

19.97ms

v2.0.0

17.69ms

Term Query (50th percentile)

v1.15.6

4049ms

v2.0.0

3244ms

Range Query (50th percentile)

v1.15.6

42.19ms

v2.0.0

28.81ms

### 2. 排序查询性能飞跃

**时间戳排序查询优化高达 97%**

Easysearch 2.0.0 在排序查询场景下实现了令人瞩目的性能突破：

#### 降序排序（desc_sort_timestamp）
50 分位延迟：从 516.07ms 降至 98.89ms（-80.84%）
90 分位延迟：从 544.84ms 降至 123.59ms（-77.32%）
99 分位延迟：从 603.14ms 降至 139.93ms（-76.80%）

升序排序 + After 分页（asc_sort_with_after_timestamp）
50 分位延迟：从 1272.58ms 降至 33.56ms（-97.36%）
90 分位延迟：从 1386.92ms 降至 37.25ms（-97.31%）
99 分位延迟：从 1474.98ms 降至 38.11ms（-97.42%）

Sort Query Latency (ms) - Lower is Better

Desc Sort

v1.15.6

516ms

v2.0.0

99ms

Asc Sort + After

v1.15.6

1272ms

v2.0.0

33ms

#### Force Merge 后的排序查询

在强制合并为单段后，排序查询性能更加出色：

**降序排序（force-merge-1-seg）**
50 分位延迟：从 131,617ms 降至 115.01ms（-99.91%）
这一改进相当于从 2 分钟以上降至 0.1 秒！

升序 + After 分页（force-merge-1-seg）
50 分位延迟：从 1387.01ms 降至 132.42ms（-90.45%）
90 分位延迟：从 1509.03ms 降至 159.05ms（-89.46%）

3. 聚合查询性能提升

hourly_agg 聚合查询优化
50 分位延迟：从 4192.57ms 降至 3866.07ms（-7.79%）
90 分位延迟：从 4303.51ms 降至 4053.80ms（-5.80%）
99 分位延迟：从 4475.32ms 降至 4269.91ms（-4.59%）

4. Scroll 查询性能改进

大数据量遍历场景优化
50 分位延迟：从 6511.65ms 降至 4623.87ms（-28.99%）
90 分位延迟：从 6881.70ms 降至 5972.79ms（-13.21%）
平均吞吐量：从 24.192 pages/s 提升至 24.485 pages/s（+1.21%）

Scroll Query Latency (ms) - Lower is Better

50th Percentile

v1.15.6

6511.65ms

v2.0.0

4623.87ms

90th Percentile

v1.15.6

6881.70ms

v2.0.0

5972.79ms

### 5. 高百分位延迟大幅改善

**极端场景下的稳定性提升**

在衡量系统稳定性的高百分位延迟指标上，2.0.0 版本表现卓越：

| 场景 | 99.9 分位延迟改进 | 99.99 分位延迟改进 | 100 分位延迟改进 |
| ---------------- | ----------------- | ------------------ | ------------------ |
| **index-append** | **-43.40%** | **-65.35%** | **-70.91%** |
| | (3364ms → 1904ms) | (9618ms → 3333ms) | (13427ms → 3906ms) |

这意味着即使在最坏的情况下，2.0.0 版本也能提供更加稳定和可预测的性能表现。

## 范围查询性能提升

**200s-in-range 和 400s-in-range 查询优化**
200s-in-range：
- 50 分位延迟降低 15.60%
- 吞吐量提升 1.20%
400s-in-range：
- 50 分位延迟降低 8.44%
- 吞吐量提升 0.23%
  
  存储优化
  
  磁盘空间使用更高效
存储大小：从 19.51 GB 降至 19.14 GB（-1.93%）
段数量：从 43 个增至 50 个（+16.28%）

虽然段数量略有增加，但总存储空间仍然减少，说明数据压缩和存储效率得到了提升。

Merge 策略调整

合并操作的权衡

需要注意的是，2.0.0 版本在 Merge 方面有以下变化：
Merge 次数从 184 次增至 192 次（+4.35%）
Merge 限流时间从 9.53 分钟增至 11.17 分钟（+17.20%）

这是为了平衡写入性能和查询性能所做的策略调整。用户可以根据实际场景需求，通过以下参数进行优化：

json { "index.merge.scheduler.max_thread_count": "1", "index.merge.policy.max_merged_segment": "5gb" } 

技术架构改进

1. 段数据结构优化

通过将段元数据从堆内存迁移到堆外内存，Easysearch 2.0.0 实现了：
更低的 JVM 堆压力
更少的 GC 频率
更稳定的内存使用模式
更好的大数据集支持能力

2. 查询缓存优化

排序查询性能的巨大提升表明 2.0.0 版本可能在以下方面进行了优化：
改进的 Doc Values 访问机制
优化的排序算法
更高效的分页实现
智能的查询结果缓存

3. I/O 优化

Refresh 和 Flush 时间的大幅减少说明：
改进了磁盘 I/O 调度策略
优化了文件系统操作
可能引入了更高效的批量写入机制

适用场景

Easysearch 2.0.0 的性能提升使其在以下场景中表现更加出色：

1. 大规模日志与事件流处理
更高的写入吞吐量（+11.24% 峰值）
更低的索引延迟
适合 APM、日志分析、安全监控等场景

2. 时序数据存储与分析
时间戳排序查询性能提升高达 97%
适合 IoT、监控指标、金融交易数据等场景

3. 全文搜索应用
多类型查询延迟降低 10-30%
高并发场景下更稳定的响应时间
适合电商搜索、内容管理系统等场景

4. 实时分析与 Dashboard
聚合查询性能提升 5-8%
更低的极端延迟，用户体验更好
适合实时报表、业务 BI 等场景

5. 大数据量遍历与导出
Scroll 查询延迟降低 29%
适合数据迁移、全量导出等场景

升级建议

兼容性

Easysearch 2.0.0 与 1.15.6 在 API 层面保持兼容，但建议：
1. 测试环境验证：先在测试环境进行充分验证
2. 配置审查：检查 Merge 相关配置是否需要调整
3. 监控指标：升级后密切关注 GC、内存、延迟等指标
4. 滚动升级：生产环境建议采用滚动升级方式
  
  性能测试环境
  
  本次测试使用 esrally 基准测试工具，测试配置如下：
测试场景：append-no-conflicts
测试时间：
- Baseline (1.15.6): 2025-11-14
- Contender (2.0.0): 2025-11-21
部署方式：External（独立部署）
CPU 绑定：使用 taskset 绑定 Easysearch 进程 0 到 15 cpu
JVM 配置：-Xms16g -Xmx16g

总结

Easysearch 2.0.0 版本在性能方面取得了全面提升：
索引性能提升 12.81%
查询延迟降低 10-97%（不同场景）
内存使用优化 100%（堆内段数据）
GC 频率降低 18.86%
Refresh 性能提升 54.46%
Flush 性能提升 40%
高百分位延迟改善 43-70%

这些改进使得 Easysearch 2.0.0 成为一个更加高效、稳定和可靠的搜索与分析引擎，特别适合处理大规模数据和实时查询场景。无论是日志分析、时序数据处理，还是全文搜索应用，2.0.0 版本都能提供更优秀的性能表现。

我们强烈建议用户升级到 Easysearch 2.0.0，以获得这些显著的性能提升和更好的使用体验。

---

关于 Easysearch

![](https://infinilabs.cn/img/blog ... er.png)

INFINI Easysearch 是一个分布式的搜索型数据库，实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch，同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
官网: https://easysearch.cn
文档: https://docs.infinilabs.com/easysearch/main

作者：张磊，极限科技（INFINI Labs）搜索引擎研发负责人，对 Elasticsearch 和 Lucene 源码比较熟悉，目前主要负责公司的 Easysearch 产品的研发以及客户服务工作。
原文：https://infinilabs.cn/blog/202 ... ents/

搜索百科（5）：Easysearch — 自主可控的国产分布式搜索引擎

liaosy 发表了文章 • 0 个评论 • 8511 次浏览 • 2025-10-20 15:54 • 来自相关话题

大家好，我是 INFINI Labs 的石阳。

欢迎关注 《搜索百科》 专栏！每天 5 分钟，带你速览一款搜索相关的技术或产品，同时还会带你探索它们背后的技术原理、发展故事及上手体验等。

在上一篇我们介绍了 [OpenSearch](https://infinilabs.cn/blog/202 ... search) —— 那个因协议争议而诞生的开源搜索分支。今天，我们把目光转向国内，聊聊极限科技研发的一款轻量级搜索引擎：Easysearch。

引言

在搜索技术的世界里，从 Lucene 的出现到 Solr、Elasticsearch 的崛起，搜索引擎技术已经发展了二十余年。然而，随着开源协议的变更与国际形势的变化，国产自主搜索引擎的需求愈发迫切。在这样的背景下，Easysearch 作为一款自主可控、轻量高效、兼容 Elasticsearch 的分布式搜索引擎应运而生，为国内企业带来了全新的选择。

![](https://infinilabs.cn/img/blog ... er.png)

Easysearch 概述

Easysearch 是一款分布式搜索型数据库，实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析、AI 集成等。Easysearch 衍生自开源协议 Apache 2.0 的 Elasticsearch 7.10 版本，并不断往前迭代更新，紧跟 Lucene 最新版本的更新。Easysearch 可以替代 Elasticsearch，同时添加和完善多项企业级功能。

首次发布：2023 年 4 月
最新版本：1.15.4（截止 2025 年 10 月）
主导企业：极限科技 (INFINI Labs)
官方网址：[https://easysearch.cn](http://easysearch.cn)

诞生背景：为什么要有 Easysearch？

Easysearch 由极限科技（INFINI Labs）团队推出。项目的起点源于团队长期在搜索引擎和大数据领域的深厚实践积累，团队深刻认识到国内企业在使用 Elasticsearch 时普遍面临以下痛点：
1. 开源协议变化带来的商业风险 —— Elastic 于 2021 年将许可更改为 SSPL，导致社区分裂，增加了企业在合规和商用上的不确定性；
2. 高并发与高可靠性场景下对稳定可控方案的需求 —— 企业级应用亟需一个性能可靠、可深度优化的搜索基础设施；
3. 技术栈自主可控的迫切需求 —— 随着国产化进程加快，国内生态中缺乏轻量化、易部署、且完全可控的搜索引擎产品；
4. 本地化服务与快速响应能力的缺口 —— 国内企业更需要本地团队提供高效的技术支持与服务，对本土化、个性化功能需求能得到及时响应与反馈。
  
  基于这些考虑，Easysearch 在设计之初就明确了目标：构建一款兼容 Elasticsearch API、简洁易用、性能出众且完全自主可控的国产搜索引擎。
  
  核心特性
轻量级：安装包大小不到 60 MB，安装部署简洁，资源占用低，开箱即用；
跨平台：支持主流操作系统和 CPU 架构，支持国产信创运行环境；
高性能：针对不同场景进行的极致优化，可用更少硬件成本获得更高服务性能，降本增效。
稳定可靠：修复大量内核问题，解决内存泄露，集群卡顿、查询缓慢等问题，久经严苛业务环境考验。
安全增强：默认就提供完整的企业级安全功能，支持 LDAP/AD 集成，支持索引、文档、字段粒度细权管控。
兼容性强：兼容 Elasticsearch 7.x 的 REST API 和数据格式，迁移成本低；
可视化运维：无需 Kibana 即可通过内置 Web UI 插件界面管理索引、节点与监控指标等。

对比优势

| 对比维度 | Easysearch | Elasticsearch | OpenSearch |
| ---------------- | ----------------- | ----------------- | -------------------------------- |
| 用户协议 | 社区免费+商业授权 | SSPL/AGPL v3 | Apache 2.0 |
| API 兼容性 | 高度兼容 ES | 原生 | 高度兼容 ES |
| 最小安装体积 | 57MB | 482MB | 682MB |
| 部署复杂度 | 简单 | 中等 | 相对复杂 |
| 信创环境支持 | 全面兼容 | 无 | 无 |
| 可视化管理 | 开箱即用管理后台 | 需独立部署 Kibana | 需独立部署 OpenSearch Dashboards |
| 本地化与中文支持 | 强 | 弱 | 弱 |
| AI 插件支持 | 较弱 | 强 | 较强 |
| 社区与生态 | 快速成长中 | 成熟广泛 | 活跃增长 |

快速开始：5 分钟体验 Easysearch

1. 使用 Docker 启动

```bash

直接运行镜像使用随机密码（数据及配置未持久化）

docker run --name easysearch \
--ulimit memlock=-1:-1 \
-p 9200:9200 \
infinilabs/easysearch:1.15.4
```

2. 验证集群状态

bash curl -ku "username:password" -X GET "<a href="https://localhost:9200/"" rel="nofollow" target="_blank">https://localhost:9200/"</a> 

返回结果示例：

json { "name": "easysearch-node", "cluster_name": "easysearch-6yhwn91v80gf", "cluster_uuid": "Gfu_fuF1QViJfeUWVbiFCA", "version": { "distribution": "easysearch", "number": "1.15.4", "distributor": "INFINI Labs", "build_hash": "9110128946b0af3de639966cfa74b5498346949d", "build_date": "2025-10-14T03:30:41.948590Z", "build_snapshot": false, "lucene_version": "8.11.4", "minimum_wire_lucene_version": "7.7.0", "minimum_lucene_index_compatibility_version": "7.7.0" }, "tagline": "You Know, For Easy Search!" } 

3. 索引与搜索示例

```bash

写入文档

curl -ku "username:password" -X POST "<a href="https://localhost:9200/my_index/_doc"" rel="nofollow" target="_blank">https://localhost:9200/my_index/_doc" -H 'Content-Type: application/json' -d'
{
"title": "Easysearch 入门",
"content": "这是一个轻量级搜索引擎的示例文档。",
"tags": ["搜索", "国产", "轻量级"]
}'

搜索文档

curl -ku "username:password" -X GET "<a href="https://localhost:9200/my_index/_search"" rel="nofollow" target="_blank">https://localhost:9200/my_index/_search" -H 'Content-Type: application/json' -d'
{
"query": {
"match": {
"content": "搜索引擎"
}
}
}'
```

4. 使用 Easysearch UI

Easysearch 提供了轻量级界面化管理功能，不再依赖第三方组件即可对集群进行管理，真正做到开箱即用。如果你安装了 Easysearch UI 插件或者下载捆绑包，可通过 _https://localhost:9200/_ui/_ 访问，进行节点、索引、分片、查询调试和监控查看等管理。

图 1：系统登录
![](https://infinilabs.cn/img/blog ... in.png)

图 2：集群概览
![](https://infinilabs.cn/img/blog ... ew.png)

图 3：节点列表
![](https://infinilabs.cn/img/blog ... de.png)

图 4：节点概览
![](https://infinilabs.cn/img/blog ... il.png)

图 5：索引列表
![](https://infinilabs.cn/img/blog ... ex.png)

图 6：索引概览
![](https://infinilabs.cn/img/blog ... il.png)

图 7：分片管理
![](https://infinilabs.cn/img/blog ... rd.png)

图 8：开发工具
![](https://infinilabs.cn/img/blog ... ls.png)

以上仅列出了一些基本功能，其他如安全管理、主从复制、备份管理、生命周期管理等更多高级功能由于篇幅限制不一一展示，有兴趣的朋友可自行部署探索。

结语

Easysearch 的诞生，不仅填补了国产搜索引擎在分布式与轻量化领域的空白，也让更多企业在面对开源协议变动与外部技术依赖时，拥有了更加安全、灵活、可控的选择。

它既是国产替代方案的有力代表，更是新一代搜索技术生态的积极探索者，为企业级实时搜索与分析带来新的可能。

🚀 下期预告

下一篇我们将介绍一款 AI 驱动的现代搜索引擎 - Meilisearch，基于 Rust 构建的开源搜索引擎，性能高、部署简单。号称比 Elasticsearch 快 10 倍，真的这么牛吗？

💬 三连互动
1. 你是否在使用或考虑国产搜索替代方案？
2. 在实际项目中，你最看重搜索引擎的哪些特性？（性能、兼容性、运维、成本）
3. 对 Easysearch 有什么功能上的期待？
 
 对搜索技术感兴趣的朋友，也欢迎加我微信（ID：lsy965145175）备注“搜索百科”，拉你进 搜索技术交流群，一起探讨与学习！
 
 ✨ 推荐阅读
[搜索百科（4）：OpenSearch — 开源搜索的新选择](https://infinilabs.cn/blog/202 ... search)
[搜索百科（3）：Elasticsearch — 搜索界的"流量明星"](https://infinilabs.cn/blog/202 ... earch/)
[搜索百科（2）：Apache Solr — 企业级搜索的开源先锋](https://infinilabs.cn/blog/2025/search-wiki-2-solr/)
[搜索百科（1）：Lucene — 打开现代搜索世界的第一扇门](https://infinilabs.cn/blog/202 ... ucene/)

🔗 参考资源
[Easysearch 官方文档](https://docs.infinilabs.com/easysearch)
[Easysearch 安装指南](https://docs.infinilabs.com/ea ... stall/)
[Elasticsearch VS Easysearch 性能测试](https://infinilabs.cn/blog/202 ... sting/)
[国产搜索引擎崛起：Elasticsearch 国产化加速](https://infinilabs.cn/blog/202 ... ative/)

原文：https://infinilabs.cn/blog/202 ... arch/

Easysearch 冷热架构实战

INFINI Labs 小助手发表了文章 • 0 个评论 • 11713 次浏览 • 2025-10-01 20:11 • 来自相关话题

在之前的文章中，我们介绍了如何使用[索引生命周期策略](https://infinilabs.cn/blog/202 ... guide/)来管理索引。如果要求索引根据其生命周期阶段自动在不同的节点之间迁移，还需要用到冷热架构。我们来看看具体如何实现。

冷热架构

冷热架构其实就是在 Easyearch 集群中定义不同属性的节点，这些节点共同组成冷热架构。比如给所有热节点一个 hot 属性，给所有冷节点一个 cold 属性。在 Easyearch 中分配节点属性是通过配置文件(easysearch.yml)来实现的，比如我要定义一个热节点和一个冷节点，我可以在对应节点的配置文件中添加如下行：

```plain

热节点添加下面的行

node.attr.temp: hot

冷节点添加下面的行

node.attr.temp: cold
 有了这些属性，我们就可以指定索引分片在分配时，是落在 hot 节点还是 cold 节点。 **查看节点属性** 测试环境是个 2 节点的 Easysearch 集群。 ![](<a href="https://infinilabs.cn/img/blog/2025/easysearch-hot-warm-arch/1.pn" rel="nofollow" target="_blank">https://infinilabs.cn/img/blog ... /1.pn</a>g) 比如我创建新索引 test-index，希望它被分配到 hot 节点上。  plain
PUT test-index
{
"settings": {
"number_of_replicas": 0,
"index.routing.allocation.require.temp": "hot"
}
}
 ![](<a href="https://infinilabs.cn/img/blog/2025/easysearch-hot-warm-arch/2.pn" rel="nofollow" target="_blank">https://infinilabs.cn/img/blog ... /2.pn</a>g) 可以看到 test-index 索引的分片分配到 hot 节点 node-1 上。我们修改索引分配节点的属性，让其移动到 cold 节点 node-2 上。  plain
PUT test-index/_settings
{
"settings": {
"index.routing.allocation.require.temp": "cold"
}
}
```

![](https://infinilabs.cn/img/blog ... /3.png)

生命周期与冷热架构

在上面的例子中，我们通过索引分配节点属性对索引“坐落”的节点进行了控制。在索引生命周期策略中也支持对该属性进行修改，实现索引根据生命周期阶段自动在不同的节点之间移动的目的。

比如我们定义一个简单的索引策略：

索引创建后进入 hot 阶段，此阶段的索引被分配到 hot 节点
创建索引 3 分钟后，索引进入 cold 阶段，此阶段索引分片移动到 cold 节点

创建策略

plain PUT _ilm/policy/ilm_test { "policy": { "phases": { "hot": { "min_age": "0m", }, "cold": { "min_age": "3m", "actions": { "allocate" : { "require" : { "temp": "cold" } } } } } } } 

生命周期策略后台是定期触发的任务，为了更快的观测到效果，可以修改任务触发周期为每分钟 1 次。

plain PUT _cluster/settings { "transient": { "index_lifecycle_management.job_interval":"1" } } 

创建索引模板

创建完索引生命周期策略，还需要索引模板把索引和生命周期策略关联起来。我们创建一个模板把所有 ilm_test 开头的索引与 ilm_test 生命周期策略关联，为了便于观察，指定索引没有副本分片。

plain PUT _template/ilm_test { "order" : 100000, "index_patterns" : [ "ilm_test*" ], "settings" : { "index" : { "lifecycle" : { "name" : "ilm_test" }, "number_of_replicas" : "0", "routing.allocation.require.temp": "hot" } } } 

创建索引

创建一个 ilm_test 开头的索引，应用上一步创建的索引模板。

plain POST ilm_test_1/_doc { "test":"test" } 

查看索引分片分配情况。

![](https://infinilabs.cn/img/blog ... /4.png)

目前索引存储在 node-1 节点，按计划 3 分钟后将会移动到 node-2 上。

![](https://infinilabs.cn/img/blog ... /5.png)

![](https://infinilabs.cn/img/blog ... /6.png)

至此我们已通过索引生命周期策略实现了索引分片的移动，其实支持的操作还有很多，比如: rollover、close、snapshot 等，详情请参阅官方[文档](https://docs.infinilabs.com/ea ... D%259C)。

有任何问题，欢迎加我微信沟通。

![](https://infinilabs.cn/img/blog ... gf.png)

关于 Easysearch

![](https://infinilabs.cn/img/blog ... er.png)

INFINI Easysearch 是一个分布式的搜索型数据库，实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch，同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。

官网文档：<https://docs.infinilabs.com/easysearch>;

Easysearch 字段'隐身'之谜：source_reuse 与 ignore_above 的陷阱解析

INFINI Labs 小助手发表了文章 • 0 个评论 • 12120 次浏览 • 2025-09-30 16:08 • 来自相关话题

## 背景问题

前阵子，社区有小伙伴在使用 [Easysearch](https://infinilabs.cn/products/easysearch/) 的数据压缩功能时发现，在开启 source_reuse 和 ZSTD 后，一个字段的内容看不到了。

索引的设置如下：

```
{
......
"settings": {
"index": {
"codec": "ZSTD",
"source_reuse": "true"
}
},
"mappings": {
"dynamic_templates": [
{
"message_field": {
"path_match": "message",
"mapping": {
"norms": false,
"type": "text"
},
"match_mapping_type": "string"
}
},
{
"string_fields": {
"mapping": {
"norms": false,
"type": "text",
"fields": {
"keyword": {
"ignore_above": 256,
"type": "keyword"
}
}
},
"match_mapping_type": "string",
"match": "*"
}
}
]
......
}
```

然后产生的一个多字段内容能**被搜索到，但是不可见**。

类似于下面的这个情况：
![](https://infinilabs.cn/img/blog ... -1.png)

## 原因分析

我们先来看看整个字段展示经历的环节：
![](https://infinilabs.cn/img/blog ... -2.png)

1. 字段写入索引的时候，不仅写了 text 字段也写了 keyword 字段。
2. keyword 字段产生倒排索引的时候，会忽略掉长度超过 ignore_above 的内容。
3. 因为开启了 source_reuse,**\_source 字段中与 doc_values 或倒排索引重复的部分会被去除**。
4. 产生的数据文件进行了 ZSTD 压缩，进一步提高了数据的压缩效率。
5. 索引进行倒排或者 docvalue 的查询，检索到这个文档进行展示。
6. 展示的时候通过文档 id **获取 `_source`或者`docvalues_fields`的内容**来展示文本，但是文本内容是空的。

其中步骤 4 中的 ZSTD 压缩，是**作用于数据文件的，并不对数据内容进行修改**。因此，我们来专注于其他环节。

## 问题复现

首先，这个字段索引的配置也是一个 es 常见的设置，并不会带来内容显示缺失的问题。

```
"mapping": {
"type": "text",
"fields": {
"keyword": {
"ignore_above": 256,
"type": "keyword"
}
}
},
```

那么，source_reuse 就成了我们可以重点排查的环节。

### source 发生了什么

source_reuse 的作用描述如下：

```
source_reuse：启用 source_reuse 配置项能够去除 _source 字段中与 doc_values 或倒排索引重复的部分，从而有效减小索引总体大小，这个功能对日志类索引效果尤其明显。

source_reuse 支持对以下数据类型进行压缩：keyword，integer，long，short，boolean，float，half_float，double，geo_point，ip，如果是 text 类型，需要默认启用 keyword 类型的 multi-field 映射。以上类型必须启用 doc_values 映射（默认启用）才能压缩。
```

这是一个对 `_source` 字段进行产品化的功能实现。为了减少索引的存储体量，简单粗暴的操作是直接将`_source`字段进行关闭，利用其他数据格式去存储，在查询的时候对应的利用 docvalue 或者 indexed 去展示文本内容。

那么 `_source`关闭后，会不会也有这样的问题呢？

测试的步骤如下：

```
# 1. 创建不带source的双字段索引

PUT test_source
{
"mappings": {
"_source": {
"enabled": false
},
"properties": {
"msg": {
"type": "text",
"fields": {
"keyword": {
"ignore_above": 256,
"type": "keyword"
}
}
}
}
}
}

# 2. 写入测试数据

POST test_source/_doc/1
{"msg":"""[08-27 14:28:45] [DBG] [config.go:273] config contain variables, try to parse with environments
[08-27 14:28:45] [DBG] [config.go:214] load config files: []
[08-27 14:28:45] [INF] [pipeline.go:419] creating pipeline: pipeline_logging_merge
[08-27 14:28:45] [INF] [pipeline.go:419] creating pipeline: ingest_pipeline_logging
[08-27 14:28:45] [INF] [pipeline.go:419] creating pipeline: async_messages_merge
[08-27 14:28:45] [INF] [pipeline.go:419] creating pipeline: metrics_merge
[08-27 14:28:45] [INF] [pipeline.go:419] creating pipeline: request_logging_merge
[08-27 14:28:45] [INF] [pipeline.go:419] creating pipeline: ingest_merged_requests
[08-27 14:28:45] [INF] [pipeline.go:419] creating pipeline: async_ingest_bulk_requests
[08-27 14:28:45] [INF] [module.go:159] started module: pipeline
[08-27 14:28:45] [DBG] [module.go:163] all system module are started
[08-27 14:28:45] [DBG] [floating_ip.go:348] setup floating_ip, root privilege are required
[08-27 14:28:45] [DBG] [queue_config.go:121] init new queue config:e60457c6eae50a4eabbb62fc1001dccc,bulk_requests
[08-27 14:28:45] [DBG] [queue_config.go:121] init new queue config:e60457c6eae50a4eabbb62fc1001dccc,bulk_requests
[08-27 14:28:45] [DBG] [queue_config.go:121] init new queue config:e60457c6eae50a4eabbb62fc1001dccc,bulk_requests
[08-27 14:28:45] [DBG] [processor.go:139] generated new processors: indexing_merge
[08-27 14:28:45] [DBG] [pipeline.go:466] processing pipeline_v2: metrics_merge
[08-27 14:28:45] [DBG] [processor.go:139] generated new processors: when
[08-27 14:28:45] [DBG] [pipeline.go:466] processing pipeline_v2: ingest_merged_requests
[08-27 14:28:45] [DBG] [processor.go:139] generated new processors: indexing_merge
[08-27 14:28:45] [DBG] [pipeline.go:466] processing pipeline_v2: request_logging_merge
[08-27 14:28:45] [DBG] [processor.go:139] generated new processors: indexing_merge
[08-27 14:28:45] [DBG] [pipeline.go:466] processing pipeline_v2: async_messages_merge
[08-27 14:28:45] [DBG] [processor.go:139] generated new processors: bulk_indexing
[08-27 14:28:45] [DBG] [pipeline.go:466] processing pipeline_v2: ingest_pipeline_logging
[08-27 14:28:45] [DBG] [queue_config.go:121] init new queue config:1216c96eb876eee5b177d45436d0a362,gateway-pipeline-logs
[08-27 14:28:45] [DBG] [processor.go:139] generated new processors: bulk_indexing
[08-27 14:28:45] [DBG] [processor.go:139] generated new processors: indexing_merge
[08-27 14:28:45] [DBG] [pipeline.go:466] processing pipeline_v2: pipeline_logging_merge
[08-27 14:28:45] [DBG] [pipeline.go:466] processing pipeline_v2: async_ingest_bulk_requests
[08-27 14:28:45] [DBG] [badger.go:110] init badger database [queue_consumer_commit_offset]
[08-27 14:28:45] [INF] [floating_ip.go:290] floating_ip entering standby mode
[08-27 14:28:45] [DBG] [badger.go:110] init badger database [dis_locker]
[08-27 14:28:45] [DBG] [time.go:208] refresh low precision time in background
[08-27 14:28:45] [DBG] [domain_actions.go:278] elasticsearch metadata [backup] was not found
[08-27 14:28:45] [DBG] [bulk_indexing.go:355] metadata for [backup] is nil
[08-27 14:28:50] [INF] [module.go:178] started plugin: floating_ip
[08-27 14:28:50] [INF] [module.go:178] started plugin: force_merge
[08-27 14:28:50] [DBG] [network.go:78] network io stats will be included for map[]
[08-27 14:28:50] [INF] [module.go:178] started plugin: metrics
[08-27 14:28:50] [INF] [module.go:178] started plugin: statsd
[08-27 14:28:50] [DBG] [entry.go:100] reuse port 0.0.0.0:7005
[08-27 14:28:50] [DBG] [metrics.go:205] collecting network metrics
[08-27 14:28:50] [DBG] [metrics.go:174] collecting instance metrics
[08-27 14:28:50] [DBG] [elasticsearch.go:128] init elasticsearch proxy instance: prod
[08-27 14:28:50] [DBG] [filter.go:103] generated new filters: when, elasticsearch
[08-27 14:28:50] [DBG] [entry.go:142] apply filter flow: [*] [/_bulk] [ filters ]
[08-27 14:28:50] [DBG] [entry.go:142] apply filter flow: [*] [/{any_index}/_bulk] [ filters ]
[08-27 14:28:50] [DBG] [elasticsearch.go:128] init elasticsearch proxy instance: prod
[08-27 14:28:50] [DBG] [filter.go:103] generated new filters: request_path_limiter, elasticsearch
[08-27 14:28:50] [INF] [module.go:178] started plugin: gateway
[08-27 14:28:50] [DBG] [module.go:182] all user plugin are started
[08-27 14:28:50] [INF] [module.go:184] all modules are started
[08-27 14:28:50] [INF] [app.go:556] gateway is up and running now.
[08-27 14:28:50] [DBG] [domain_actions.go:278] elasticsearch metadata [backup] was not found
[08-27 14:28:50] [DBG] [bulk_indexing.go:355] metadata for [backup] is nil
[08-27 14:28:55] [DBG] [domain_actions.go:278] elasticsearch metadata [backup] was not found
[08-27 14:28:55] [DBG] [bulk_indexing.go:355] metadata for [backup] is nil
[08-27 14:29:00] [DBG] [metrics.go:205] collecting network metrics
[08-27 14:29:00] [DBG] [metrics.go:174] collecting instance metrics
[08-27 14:29:00] [DBG] [domain_actions.go:278] elasticsearch metadata [backup] was not found
[08-27 14:29:00] [DBG] [bulk_indexing.go:355] metadata for [backup] is nil
[08-27 14:29:05] [DBG] [domain_actions.go:278] elasticsearch metadata [backup] was not found
[08-27 14:29:05] [DBG] [bulk_indexing.go:355] metadata for [backup] is nil
[08-27 14:29:10] [DBG] [metrics.go:205] collecting network metrics
[08-27 14:29:10] [DBG] [metrics.go:174] collecting instance metrics
[08-27 14:29:10] [DBG] [domain_actions.go:278] elasticsearch metadata [backup] was not found"""}

# 3. 查询数据
GET test_source/_search
```

此时，可以看到，存入的文档检索出来是空的
![](https://infinilabs.cn/img/blog ... -3.png)

`_source` 字段是用于索引时传递的原始 JSON 文档主体。它本身未被索引成倒排（因此不作用于 `query` 阶段），只是在执行查询时用于 `fetch` 文档内容。

对于 text 类型，关闭`_source`，则字段内容自然不可被查看。

而对于 keyword 字段，查看`_source`也是不行的。可是 keyword 不仅存储`source`，还存储了 doc_values。因此，对于 keyword 字段类型，可以考虑关闭`_source`,使用 `docvalue_fields` 来查看字段内容。

测试如下：

```
# 1. 创建测试条件的索引
PUT test_source2
{
"mappings": {
"_source": {
"enabled": false
},
"properties": {
"msg": {
"type": "keyword"

}
}
}
}

# 2. 写入数据
POST test_source2/_doc
{"msg":"1111111"}

# 3. 使用 docvalue_fields 查询数据
POST test_source2/_search
{"docvalue_fields": ["msg"]}

# 返回结果
{
"took": 1,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
"total": {
"value": 1,
"relation": "eq"
},
"max_score": 1,
"hits": [
{
"_index": "test_source2",
"_type": "_doc",
"_id": "yBvTj5kBvrlGDwP29avf",
"_score": 1,
"fields": {
"msg": [
"1111111"
]
}
}
]
}
}
```

在`如果是 text 类型，需要默认启用 keyword 类型的 multi-field 映射。以上类型必须启用 doc_values 映射（默认启用）才能压缩。`这句介绍里，也可以看到 `source_reuse` 的正常使用需要 `doc_values`。_那是不是一样使用 `doc_values` 进行内容展示呢？既然用于 `docvalue_fields` 内容展示，为什么还是内容看不了（不可见）呢？_

### keyword 的 ignore_above

仔细看问题场景里 keyword 的配置，它使用了 ignore_above。那么，会不会是这里的问题？

我们将 ignore_above 配置带入上面的测试，这里为了简化测试，ignore_above 配置为 3。**为区分问题现象，这里两条长度不同的文本进去，一条为 `11`,一条为`1111111`，可以作为参数作用效果的对比**。

```
# 1. 创建测试条件的索引,ignore_above 设置为3
PUT test_source3
{
"mappings": {
"_source": {
"enabled": false
},
"properties": {
"msg": {
"type": "keyword",
"ignore_above": 3
}
}
}
}

# 2. 写入数据，
POST test_source3/_doc
{"msg":"1111111"}

POST test_source3/_doc
{"msg":"11"}

# 3. 使用 docvalue_fields 查询数据
POST test_source3/_search
{"docvalue_fields": ["msg"]}

# 返回内容
{
"took": 363,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
"total": {
"value": 2,
"relation": "eq"
},
"max_score": 1,
"hits": [
{
"_index": "test_source3",
"_type": "_doc",
"_id": "yhvjj5kBvrlGDwP22KsG",
"_score": 1
},
{
"_index": "test_source3",
"_type": "_doc",
"_id": "yxvzj5kBvrlGDwP2Nav6",
"_score": 1,
"fields": {
"msg": [
"11"
]
}
}
]
}
}
```

OK! 问题终于复现了。我们再来看看作为关键因素的 ignore_above 参数是用来干嘛的。

```
ignore_above：任何长度超过此整数值的字符串都不应被索引。默认值为 2147483647。默认动态映射会创建一个 ignore_above 设置为 256 的 keyword 子字段。
```

也就是说，ignore_above 在（倒排）索引时会截取内容，防止产生的索引内容过长。

但是从测试的两个文本来看，**面对在参数范围内的文档，docvalues 会正常创建，而超出参数范围的文本而忽略创建（**至于这个问题背后的源码细节我们可以另外开坑再鸽，此处省略）。

那么，在 source_reuse 下，keyword 的 ignore_above 是不是起到了相同的作用呢？

我们可以在问题场景上去除 ignore_above，参数试试，来看下面的测试：

```
# 1. 创建测试条件的索引,使用 source_reuse，设置 ignore_above 为3
PUT test_source4
{
"settings": {
"index": {
"source_reuse": "true"
}
},
"mappings": {
"properties": {
"msg": {
"type": "text",
"fields": {
"keyword": {
"ignore_above": 3,
"type": "keyword"
}
}
}
}
}
}

# 2. 写入数据
POST test_source4/_doc
{"msg":"1111111"}

POST test_source4/_doc
{"msg":"11"}

# 3. 使用 docvalue_fields 查询数据
POST test_source4/_search

# 返回内容
{
"took": 1,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
"total": {
"value": 2,
"relation": "eq"
},
"max_score": 1,
"hits": [
{
"_index": "test_source4",
"_type": "_doc",
"_id": "",
"_score": 1,
"_source": {}
},
{
"_index": "test_source4",
"_type": "_doc",
"_id": "zRv2j5kBvrlGDwP2_qsO",
"_score": 1,
"_source": {
"msg": "11"
}
}
]
}
}
```

可以看到，数据“不可见”的问题被完整的复现了。

## 小结

从上面一系列针对数据“不可见”问题的测试，我们可以总结以下几点：

1. 在 source_reuse 的压缩使用中，keyword 字段的 ignore_ablve 参数尽量使用默认值，不要进行过短的设置（这个 tip 已补充在 Easysearch 文档中）。
2. 在 source_reuse 是对数据压缩常见方法-关闭 source 字段的产品化处理，在日志压缩场景中有效且便捷，可以考虑多加利用。
3. keyword 的 ignore_above 参数，不仅超出长度范围不进行倒排索引，也不会写入 docvalues。

特别感谢：**社区@牛牪犇群**

更多 Easysearch 资料请查看 [官网文档](https://docs.infinilabs.com/easysearch)。

> 作者：金多安，极限科技（INFINI Labs）搜索运维专家，Elastic 认证专家，搜索客社区日报责任编辑。一直从事与搜索运维相关的工作，日常会去挖掘 ES / Lucene 方向的搜索技术原理，保持搜索相关技术发展的关注。
> 原文：https://infinilabs.cn/blog/202 ... ield/

Easysearch 国产替代 Elasticsearch：8 大核心问题解读

liaosy 发表了文章 • 0 个评论 • 14568 次浏览 • 2025-09-18 09:43 • 来自相关话题

近年来，随着数据安全与自主可控需求的不断提升，越来越多的企业开始关注国产化的搜索与日志分析解决方案。作为极限科技推出的国产 Elasticsearch 替代产品，Easysearch 凭借其对搜索场景的深入优化、轻量级架构设计以及对 ES 生态的高度兼容，成为众多企业替代 Elasticsearch 的新选择。

![](https://infinilabs.cn/img/blog ... er.png)

我们在近期与用户的交流中，整理出了大家最关心的八大问题，并将它们浓缩为一篇技术解读，希望帮助你快速了解 Easysearch 的优势与定位。

用户最关心的八大问题

Easysearch 对数据量的支撑能力如何，能应对 PB 级数据存储吗？

答：完全可以。Easysearch 支持水平扩展，通过增加节点即可线性提升存储与计算能力。在实际应用中，已成功支撑 PB 级日志与检索数据。同时，其存储压缩率相比 Elasticsearch 7.10.2 平均高出 2.5~3 倍，显著节省硬件成本。
在高并发写入场景下，Easysearch 和 ES 的性能差异有多大？

答：在相同硬件配置下，使用 Nginx 日志进行 bulk 写入压测，Easysearch 在多种分片配置下的写入性能相比 Elasticsearch 7.10.2 提升 40%-70%，更适合高并发写入场景。
是否支持中文分词？需要额外插件吗？

答：中文分词一直是 Elasticsearch 用户的「必装插件」。而在 Easysearch 中，中文分词是开箱即用的，同时支持 ik、pinyin 等主流分词器，还能自定义词典，方便电商、内容平台等场景。
从 ES 迁移到 Easysearch 是否复杂？会影响业务吗？

答：迁移往往是国产替代的最大顾虑。为此，Easysearch 提供了 极限网关 工具，支持全量同步和实时增量同步。迁移过程中业务可继续读写，只需短暂切换连接地址，几乎无感知。
监控与运维工具是否完善？是否支持 Kibana？

答：Easysearch 提供完整的监控与运维体系。从 Easysearch 1.15.x 版本起自带 Web UI 管理控制台（类似简化版 Kibana），支持索引管理、查询调试、权限控制等功能。同时还提供 INFINI Console 实现多集群管理与深度监控等。也可以通过配置让 Kibana 连接 Easysearch（部分高级功能可能受限）。
小型团队技术能力有限，用 Easysearch 运维难度高吗？

答：Easysearch 的一大设计理念就是降低运维门槛。Easysearch 提供一键部署脚本，减少手动配置参数，支持自动分片均衡与故障节点恢复，无需专职运维人员也能稳定运行，非常适合技术资源有限的团队。
Easysearch 是否支持数据备份与恢复？操作复杂吗？

答：支持快照（Snapshot），可备份到本地磁盘或对象存储（S3、OSS 等）。恢复时仅需执行快照恢复命令，满足企业级数据安全需求。
对比 ES，Easysearch 在使用体验上最大的不同是什么？

答：Easysearch 保持与 Elasticsearch 类似的接口与查询 DSL，用户几乎无学习成本即可上手。同时，它针对国产化环境和搜索场景做了优化，运维更轻量，成本更可控。

结语：Easysearch，国产化搜索的新选择

作为一款国产自主可控的搜索与日志分析引擎，Easysearch 不仅继承了 Elasticsearch 的核心能力，更在性能、易用性、资源效率和中文支持等方面进行了深度优化。对于希望实现国产化替代、降低运维成本、提升系统性能的企业来说，Easysearch 是一个值得认真考虑的新选择。

![](https://infinilabs.cn/img/blog ... er.png)

如果你正在评估 Elasticsearch 的替代方案，不妨从 Easysearch 开始，体验更轻量、更高效的搜索新架构。

如需了解更多技术细节与使用案例，欢迎访问官方文档与社区资源：
[Easysearch 官网文档](https://docs.infinilabs.com/easysearch)
[Elasticsearch VS Easysearch 性能测试](https://infinilabs.cn/blog/202 ... sting/)
[使用 Easysearch，日志存储少一半](https://infinilabs.cn/blog/202 ... ssion/)
[Kibana OSS 7.10.2 连接 Easysearch](https://infinilabs.cn/blog/202 ... earch/)
[自建 ES 集群通过极限网关无缝迁移到云上](https://infini-share.yuque.com ... 3DSPaV)
[INFINI Console 一站式的数据搜索分析与管理平台](https://docs.infinilabs.com/console/main/zh/)

![](https://infinilabs.cn/img/blog ... on.png)

kibana和es的跨集群搜索是否可以连接easysearch?

贡献

medcl 回复了问题 • 2 人关注 • 1 个回复 • 5294 次浏览 • 2025-09-11 19:03 • 来自相关话题

IK 字段级别词典的升级之路

INFINI Labs 小助手发表了文章 • 0 个评论 • 4090 次浏览 • 2025-07-29 13:01 • 来自相关话题

背景知识：词库的作用

IK 分词器是一款基于词典匹配的中文分词器，其准确性和召回率与 IK 使用的词库也有不小的关系。

这里我们先了解一下词典匹配法的作用流程：

预先准备一个大规模的词典，用算法在文本中寻找词典里的最长匹配项。这种方法实现简单且速度快。
但面临歧义切分和未登录词挑战：同一序列可能有不同切分方式（例如“北京大学生”可以切成“北京大学/生”或“北京/大学生”），需要规则或算法消除歧义；
而词典中没有的新词（如网络流行语、人名等）无法正确切分。

可以看到词库是词元产生的比对基础，一个完善的中文词库能大大提高分词器的准确性和召回率。

IK 使用的词库是中文中常见词汇的合集，完善且丰富，ik_smart 和 ik_max_word 也能满足大部分中文分词的场景需求。但是针对一些专业的场景，比如医药这样的行业词库、电商搜索词、新闻热点词等，IK 是很难覆盖到的。这时候就需要使用者自己去维护自定义的词库了。

IK 的自定义词库加载方式

IK 本身也支持自定义词库的加载和更新的，但是只支持一个集群使用一个词库。

这里主要的制约因素是，词库对象与 ik 的中文分词器执行对象是一一对应的关系。

![](https://infinilabs.cn/img/blog ... -1.png)

这导致了 IK 的词库面对不同中文分词场景时较低的灵活性，使用者并不能做到字段级别的词库加载。并且基于文件或者 http 协议的词库加载方式也需要不小的维护成本。

字段级别词库的加载

鉴于上述的背景问题，INFINI lab 加强了 IK 的词库加载逻辑，做到了字段级别的词库加载。同时将自定义词库的加载方式由外部文件/远程访问改成了内部索引查询。

主要逻辑如图：
![](https://infinilabs.cn/img/blog ... -2.png)

这里 IK 多中文词库的加载优化主要基于 IK 可以加载多词类对象（即下面这段代码）的灵活性，将原来遍历一个 CJK 词类对象修改成遍历多个 CJK 词类对象，各个自定义词库可以附着在 CJK 词库对象上实现不同词库的分词。

 do{ //遍历子分词器 for(ISegmenter segmenter : segmenters){ segmenter.analyze(context); } //字符缓冲区接近读完，需要读入新的字符 if(context.needRefillBuffer()){ break; } } 

对默认词库的新增支持

对于默认词库的修改，新版 IK 也可以通过写入词库索引方式支持，只要将 dict_key 设置为 default 即可。

 POST .analysis_ik/_doc { "dict_key": "default", "dict_type": "main_dicts", "dict_content":"杨树林" } 

效率测试

测试方案 1：单条测试

测试方法：写入一条数据到默认 ik_max_word 和自定义词库，查看是否有明显的效率差距
创建测试索引，自定义一个包括默认词库的 IK 分词器

 PUT my-index-000001 { "settings": { "number_of_shards": 3, "analysis": { "analyzer": { "my_custom_analyzer": { "type": "custom", "tokenizer": "my_tokenizer" } }, "tokenizer": { "my_tokenizer": { "type": "ik_max_word", "custom_dict_enable": true, "load_default_dicts":true, "lowcase_enable": true, "dict_key": "test_dic" } } } }, "mappings": { "properties": { "test_ik": { "type": "text", "analyzer": "my_custom_analyzer" } } } }
将该词库重复默认词库的内容

```
POST .analysis_ik/_doc
{
"dict_key": "test_dic",
"dict_type": "main_dicts",
"dict_content":"""xxxx #词库内容
"""
}

debug 日志

[2025-07-09T16:37:43,112][INFO ][o.w.a.d.Dictionary ] [ik-1] Loaded 275909 words from main_dicts dictionary for dict_key: test_dic
```
测试默认词库和自定义词库的分词效率

 GET my-index-000001/_analyze { "analyzer": "my_custom_analyzer", "text":"自强不息，杨树林" } GET my-index-000001/_analyze { "analyzer": "ik_max_word", "text":"自强不息，杨树林" } 

![](https://infinilabs.cn/img/blog ... -3.png)
![](https://infinilabs.cn/img/blog ... -4.png)

打开 debug 日志，可以看到自定义分词器在不同的词库找到了 2 次“自强不息”

 ... [2025-07-09T16:52:22,937][INFO ][o.w.a.c.CN_QuantifierSegmenter] [ik-1] 当前扫描词元[息]不需要启动量词扫描 [2025-07-09T16:52:22,937][INFO ][o.w.a.c.CJKSegmenter ] [ik-1] >>> WORD FOUND [自强不息] from dict [default] [2025-07-09T16:52:22,937][INFO ][o.w.a.c.CJKSegmenter ] [ik-1] >>> WORD FOUND [不息] from dict [default] [2025-07-09T16:52:22,937][INFO ][o.w.a.c.CJKSegmenter ] [ik-1] >>> WORD FOUND [自强不息] from dict [test_dic] [2025-07-09T16:52:22,937][INFO ][o.w.a.c.CJKSegmenter ] [ik-1] >>> WORD FOUND [不息] from dict [test_dic] [2025-07-09T16:52:22,937][INFO ][o.w.a.c.CN_QuantifierSegmenter] [ik-1] 当前扫描词元[,]不需要启动量词扫描 ... 

而默认词库只有一次

 ... [2025-07-09T16:54:22,618][INFO ][o.w.a.c.CN_QuantifierSegmenter] [ik-1] 当前扫描词元[息]不需要启动量词扫描 [2025-07-09T16:54:22,618][INFO ][o.w.a.c.CJKSegmenter ] [ik-1] >>> WORD FOUND [自强不息] from dict [default] [2025-07-09T16:54:22,618][INFO ][o.w.a.c.CJKSegmenter ] [ik-1] >>> WORD FOUND [不息] from dict [default] [2025-07-09T16:54:22,618][INFO ][o.w.a.c.CN_QuantifierSegmenter] [ik-1] 当前扫描词元[,]不需要启动量词扫描 ... 

测试方案 2:持续写入测试

测试方法：在 ik_max_word 和自定义词库的索引里，分别持续 bulk 写入，查看总体写入延迟。

测试索引：

```

ik_max_word索引

PUT ik_max_test
{
"mappings": {
"properties": {
"chapter": {
"type": "keyword"
},
"content": {
"type": "text",
"analyzer": "ik_max_word"
},
"paragraph_id": {
"type": "keyword"
},
"random_field": {
"type": "text"
},
"timestamp": {
"type": "keyword"
},
"word_count": {
"type": "integer"
}
}
},
"settings": {
"index": {
"number_of_shards": "1",
"number_of_replicas": "0"
}
}
}

自定义词库索引

PUT ik_custom_test
{
"mappings": {
"properties": {
"chapter": {
"type": "keyword"
},
"content": {
"type": "text",
"analyzer": "my_custom_analyzer"
},
"paragraph_id": {
"type": "keyword"
},
"random_field": {
"type": "text"
},
"timestamp": {
"type": "keyword"
},
"word_count": {
"type": "integer"
}
}
},
"settings": {
"index": {
"number_of_shards": "1",
"analysis": {
"analyzer": {
"my_custom_analyzer": {
"type": "custom",
"tokenizer": "my_tokenizer"
}
},
"tokenizer": {
"my_tokenizer": {
"load_default_dicts": "true",
"type": "ik_max_word",
"dict_key": "test_dic",
"lowcase_enable": "true",
"custom_dict_enable": "true"
}
}
},
"number_of_replicas": "0"
}
}
}

 这里利用脚本循环写入了一段《四世同堂》的文本，比较相同次数下，两次写入的总体延迟。 测试脚本内容如下：  python

!/usr/bin/env python3

-- coding: utf-8 --

"""
四世同堂中文内容随机循环写入 Elasticsearch 脚本
目标：生成指定 bulk 次数的索引内容
"""

import random
import time
import json
from datetime import datetime
import requests
import logging
import os
import argparse
import urllib3

配置日志

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(name)

class ESDataGenerator:
def init(self, es_host='localhost', es_port=9200, index_name='sisitontang_content',
target_bulk_count=10000, batch_size=1000, use_https=False, username=None, password=None, verify_ssl=True):
"""
初始化 ES 连接和配置
"""
protocol = 'https' if use_https else 'http'
self.es_url = f'{protocol}://{es_host}:{es_port}'
self.index_name = index_name
self.target_bulk_count = target_bulk_count # 目标 bulk 次数
self.batch_size = batch_size
self.check_interval = 1000 # 每 1000 次 bulk 检查一次进度

设置认证信息
```
self.auth = None 
if username and password: 
 self.auth = (username, password) 
 logger.info(f"使用用户名认证: {username}") 
```
设置请求会话
```
self.session = requests.Session() 
if self.auth: 
 self.session.auth = self.auth 
```
处理HTTPS和SSL证书验证
```
if use_https: 
 self.session.verify = False # 始终禁用SSL验证以避免证书问题 
 logger.info("警告：已禁用SSL证书验证（适合开发测试环境）") 
 urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning) 
```
设置SSL适配器以处理连接问题
```
 from requests.adapters import HTTPAdapter 
 from urllib3.util.retry import Retry 
```
配置重试策略
```
 retry_strategy = Retry( 
 total=3, 
 backoff_factor=1, 
 status_forcelist=[429, 500, 502, 503, 504], 
 ) 
```
adapter = HTTPAdapter(max_retries=retry_strategy)
self.session.mount("<a href="https://"" rel="nofollow" target="_blank">https://", adapter)

设置更宽松的SSL上下文
```
 self.session.verify = False 
```
logger.info(f"ES连接地址: {self.es_url}")

创建索引映射
```
self.create_index() 
```
def create_index(self):
"""创建索引和映射"""
mapping = {
"mappings": {
"properties": {
"chapter": {"type": "keyword"},
"content": {"type": "text", "analyzer": "ik_max_word"},
"timestamp": {"type": "date"},
"word_count": {"type": "integer"},
"paragraph_id": {"type": "keyword"},
"random_field": {"type": "text"}
}
}
}

try:

检查索引是否存在
```
 response = self.session.head(f"{self.es_url}/{self.index_name}") 
 if response.status_code == 200: 
 logger.info(f"索引 {self.index_name} 已存在") 
 else: 
 # 创建索引 
 response = self.session.put( 
 f"{self.es_url}/{self.index_name}", 
 headers={'Content-Type': 'application/json'}, 
 json=mapping 
 ) 
 if response.status_code in [200, 201]: 
 logger.info(f"创建索引 {self.index_name} 成功") 
 else: 
 logger.error(f"创建索引失败: {response.status_code} - {response.text}") 
except Exception as e: 
 logger.error(f"创建索引失败: {e}") 
```
def load_text_content(self, file_path='sisitontang.txt'):
"""
从文件加载《四世同堂》的完整文本内容
如果文件不存在，则返回扩展的示例内容
"""
if os.path.exists(file_path):
try:
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
logger.info(f"从文件 {file_path} 加载了 {len(content)} 个字符的文本内容")
return content
except Exception as e:
logger.error(f"读取文件失败: {e}")

如果文件不存在，返回扩展的示例内容
```
logger.info("使用内置的扩展示例内容") 
return self.get_extended_sample_content() 
```
def get_extended_sample_content(self):
"""
获取扩展的《四世同堂》示例内容
"""
content = """
小羊圈胡同是北平城里的一个小胡同。它不宽，可是很长，从东到西有一里多路。在这条胡同里，从东边数起，有个小茶馆，几个小门脸，和一群小房屋。小茶馆的斜对面是个较大的四合院，院子里有几棵大槐树。这个院子就是祁家的住所，四世同堂的大家庭就在这里度过了最困难的岁月。

祁老人是个善良的老头儿，虽然年纪大了，可是还很有精神。他的一生见证了太多的变迁，从清朝的衰落到民国的建立，再到现在的战乱，他都以一种达观的态度面对着。他的儿子祁天佑是个教书先生，为人正直，在胡同里很有威望。祁家的儿媳妇韵梅是个贤惠的女人，把家里打理得井井有条，即使在最困难的时候，也要维持着家庭的尊严。

钱默吟先生是个有学问的人，他的诗写得很好，可是性格有些古怪。他住在胡同深处的一个小院子里，平时很少出门，只是偶尔到祁家坐坐，和祁天佑聊聊古今。他对时局有着自己独特的见解，但更多的时候，他选择在自己的小天地里寻找精神的慰藉。战争的残酷现实让这个文人感到深深的无力，但他依然坚持着自己的文人气节。

小顺子是个活泼的孩子，他每天都在胡同里跑来跑去，和其他的孩子们一起玩耍。他的笑声总是能感染到周围的人，让这个古老的胡同充满了生机。即使在战争的阴霾下，孩子们依然保持着他们的天真和快乐，这或许就是生活的希望所在。小顺子不懂得大人们的烦恼，他只是简单地享受着童年的快乐。

李四大爷是个老实人，他在胡同里开了个小杂货铺。虽然生意不大，但是童叟无欺，街坊邻居们都愿意到他这里买东西。他的妻子是个能干的女人，把小铺子管理得很好。在那个物资匮乏的年代，能够维持一个小铺子的经营已经很不容易了。李四大爷经常帮助邻居们，即使自己的生活也不宽裕。

胡同里的生活是平静的，每天清晨，人们就开始忙碌起来。有的人挑着水桶去井边打水，有的人牵着羊去街上卖奶，有的人挑着菜担子去菜市场。这种平静的生活在战争来临之前是那么的珍贵，人们都珍惜着这样的日子。邻里之间相互照顾，孩子们在院子里玩耍，老人们在门口晒太阳聊天。

冠晓荷是个复杂的人物，他有文化，也有野心。在日本人占领北平的时候，他选择了与敌人合作，这让胡同里的人们都看不起他。但是他的妻子还是个好人，只是被丈夫连累了。冠晓荷的选择代表了那个时代一部分知识分子的软弱和妥协，他们在民族大义和个人利益之间选择了后者。

春天来了，胡同里的槐树发芽了，小鸟们在枝头歌唱。孩子们在院子里玩耍，老人们在门口晒太阳。这样的日子让人感到温暖和希望。即使在最黑暗的时期，生活依然要继续，人们依然要保持对美好未来的希望。春天的到来总是能够给人们带来新的希望和力量。

战争的阴云笼罩着整个城市，胡同里的人们也感受到了压力。有的人选择了抗争，有的人选择了妥协，有的人选择了逃避。每个人都在用自己的方式应对这个艰难的时代。祁瑞宣面临着痛苦的选择，他既不愿意与日本人合作，也不敢公开反抗，这种内心的煎熬让他备受折磨。

老舍先生用他细腻的笔触描绘了胡同里的众生相，每个人物都有自己的特点和命运。他们的喜怒哀乐构成了这部伟大作品的丰富内涵。从祁老爷子的达观，到祁瑞宣的痛苦，从韵梅的坚强，到冠晓荷的堕落，每个人物都是那个时代的缩影。

在那个动荡的年代，普通人的生活是不容易的。他们要面对战争的威胁，要面对生活的困难，要面对道德的选择。但是他们依然坚强地活着，为了家人，为了希望。即使在最困难的时候，人们依然保持着对美好生活的向往。

胡同里的邻里关系是复杂的，有友好的，也有矛盾的。但是在大的困难面前，大家还是会相互帮助。这种邻里之间的温情是中华民族传统文化的重要组成部分。在那个特殊的年代，这种人与人之间的温情显得更加珍贵。

祁瑞宣是个有理想的青年，他受过良好的教育，有自己的抱负。但是在日本人占领期间，他的理想和现实之间产生了尖锐的矛盾。他不愿意做汉奸，但是也不能完全抵抗。这种内心的矛盾和痛苦是那个时代很多知识分子的真实写照。

小妞子是个可爱的孩子，她的天真无邪给这个沉重的故事增添了一丝亮色。她不懂得大人们的复杂心理，只是简单地生活着，快乐着。孩子们的天真和快乐在那个黑暗的年代显得格外珍贵，它们代表着生活的希望和未来。

程长顺是个朴实的人，他没有什么文化，但是有自己的原则和底线。他不愿意向日本人低头，宁愿过艰苦的生活也要保持自己的尊严。他的坚持代表了中国人民不屈不挠的精神，即使在最困难的时候也不愿意妥协。

胡同里的生活节奏是缓慢的，人们有时间去观察周围的变化，去思考生活的意义。这种慢节奏的生活在今天看来是珍贵的，它让人们有机会去体验生活的细节。在那个年代，即使生活艰难，人们依然能够从平凡的日常中找到乐趣。

老二是个有个性的人，他不愿意受约束，喜欢自由自在的生活。但是在战争年代，这种个性给他带来了麻烦，也给家人带来了担忧。他的反叛精神在某种程度上代表着年轻一代对传统束缚的反抗，但在那个特殊的时代，这种反抗往往会带来意想不到的后果。

胡同里的四合院是北京传统建筑的代表，它们见证了一代又一代人的生活。每个院子里都有自己的故事，每个房间里都有自己的记忆。这些古老的建筑承载着深厚的历史文化底蕴，即使在战争的破坏下，依然坚强地屹立着。

在《四世同堂》这部作品中，老舍先生不仅描绘了个人的命运，也反映了整个民族的命运。小胡同里的故事其实就是大中国的缩影。每个人物的遭遇都代表着那个时代某一类人的命运，他们的选择和结局反映了整个民族在那个特殊历史时期的精神状态。

战争结束了，但是人们心中的创伤需要时间来愈合。胡同里的人们重新开始了正常的生活，但是那段艰难的经历永远不会被忘记。历史的教训提醒着人们珍惜和平，珍惜现在的美好生活。四世同堂的故事将永远流传下去，成为后人了解那个时代的重要窗口。
"""
return content.strip()

def split_text_randomly(self, text, min_length=100, max_length=200):
"""
将文本按100-200字的随机长度进行分割
"""

清理文本，移除多余的空白字符
```
text = ''.join(text.split()) 
```
segments = []
start = 0

while start < len(text):

随机选择段落长度
```
 segment_length = random.randint(min_length, max_length) 
 end = min(start + segment_length, len(text)) 
```
segment = text[start:end]
if segment.strip(): # 确保段落不为空
segments.append(segment.strip())

start = end

return segments

def generate_random_content(self, base_content):
"""
基于基础内容生成随机变化的内容
"""

随机选择一个基础段落
```
base_paragraph = random.choice(base_content) 
```
随机添加一些变化
```
variations = [ 
 "在那个年代，", 
 "据说，", 
 "人们常常说，", 
 "老一辈人总是提到，", 
 "历史记录显示，", 
 "根据回忆，", 
 "有人说，", 
 "大家都知道，", 
 "传说中，", 
 "众所周知，" 
] 
```
endings = [
"这就是当时的情况。",
"这样的事情在那个年代很常见。",
"这个故事至今还在流传。",
"这是一个值得回忆的故事。",
"这样的经历让人难以忘怀。",
"这就是老北京的生活。",
"这种精神值得我们学习。",
"这个时代已经过去了。",
"这样的生活现在已经很难看到了。",
"这是历史的见证。"
]

随机组合内容
```
if random.random() < 0.3: 
 content = random.choice(variations) + base_paragraph 
else: 
 content = base_paragraph 
```
if random.random() < 0.3:
content += random.choice(endings)

return content

def generate_document(self, text_segments, doc_id):
"""基于文本段落生成一个文档"""

随机选择一个文本段落
```
content = random.choice(text_segments) 
```
生成随机的额外字段以增加文档大小
```
random_field = ''.join(random.choices('abcdefghijklmnopqrstuvwxyz0123456789', k=random.randint(100, 500))) 
```
doc = {
"chapter": f"第{random.randint(1, 100)}章",
"content": content,
"timestamp": datetime.now(),
"word_count": len(content),
"paragraphid": f"para{doc_id}",
"random_field": random_field
}

return doc

def get_index_size_gb(self):
"""获取索引大小（GB）"""
try:
response = self.session.get(f"{self.es_url}/_cat/indices/{self.index_name}?bytes=b&h=store.size&format=json")
if response.status_code == 200:
data = response.json()
if data and len(data) > 0:
size_bytes = int(data[0]['store.size'])
size_gb = size_bytes / (1024 1024 1024)
return size_gb
return 0
except Exception as e:
logger.error(f"获取索引大小失败: {e}")
return 0

def bulk_insert(self, documents):
"""批量插入文档使用HTTP bulk API"""

构建bulk请求体
```
bulk_data = [] 
for doc in documents: 
 # 添加action行 
 action = {"index": {"_index": self.index_name}} 
 bulk_data.append(json.dumps(action)) 
 # 添加文档行 
 bulk_data.append(json.dumps(doc, ensure_ascii=False, default=str)) 
```
每行以换行符结束，最后也要有换行符
```
bulk_body = '\n'.join(bulk_data) + '\n' 
```
try:
response = self.session.post(
f"{self.es_url}/_bulk",
headers={'Content-Type': 'application/x-ndjson'},
data=bulk_body.encode('utf-8'),
timeout=30 # 添加超时设置
)

if response.status_code == 200:
result = response.json()

检查是否有错误
```
 if result.get('errors'): 
 error_count = 0 
 error_details = [] 
 for item in result['items']: 
 if 'error' in item.get('index', {}): 
 error_count += 1 
 error_info = item['index']['error'] 
 error_details.append(f"类型: {error_info.get('type')}, 原因: {error_info.get('reason')}") 
```
if error_count > 0:
logger.warning(f"批量插入有 {error_count} 个错误")

打印前5个错误的详细信息
```
 for i, error in enumerate(error_details[:5]): 
 logger.error(f"错误 {i+1}: {error}") 
 if len(error_details) > 5: 
 logger.error(f"... 还有 {len(error_details)-5} 个类似错误") 
 return True 
 else: 
 logger.error(f"批量插入失败: HTTP {response.status_code} - {response.text}") 
 return False 
except requests.exceptions.SSLError as e: 
 logger.error(f"SSL连接错误: {e}") 
 logger.error("建议检查ES集群的SSL配置或使用 --no-verify-ssl 参数") 
 return False 
except requests.exceptions.ConnectionError as e: 
 logger.error(f"连接错误: {e}") 
 logger.error("请检查ES集群地址和端口是否正确") 
 return False 
except requests.exceptions.Timeout as e: 
 logger.error(f"请求超时: {e}") 
 logger.error("ES集群响应超时，可能负载过高") 
 return False 
except Exception as e: 
 logger.error(f"批量插入失败: {e}") 
 logger.error(f"错误类型: {type(e).__name__}") 
 return False 
```
def run(self):
"""运行数据生成器"""
start_time = time.time()
start_datetime = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
logger.info(f"开始生成数据，开始时间: {start_datetime}，目标bulk次数: {self.target_bulk_count}")

加载文本内容
```
text_content = self.load_text_content() 
```
将文本分割成100-200字的段落
```
text_segments = self.split_text_randomly(text_content, min_length=100, max_length=200) 
logger.info(f"分割出 {len(text_segments)} 个文本段落") 
```
doc_count = 0
bulk_count = 0
bulk_times = [] # 记录每次bulk的耗时

while bulk_count < self.target_bulk_count:

生成批量文档
```
 documents = [] 
 for i in range(self.batch_size): 
 doc = self.generate_document(text_segments, doc_count + i) 
 documents.append(doc) 
```
记录单次bulk开始时间
```
 bulk_start = time.time() 
```
批量插入
```
 if self.bulk_insert(documents): 
 bulk_end = time.time() 
 bulk_duration = bulk_end - bulk_start 
 bulk_times.append(bulk_duration) 
```
doc_count += self.batch_size
bulk_count += 1

定期检查和报告进度
```
 if bulk_count % self.check_interval == 0: 
 current_size = self.get_index_size_gb() 
 avg_bulk_time = sum(bulk_times[-self.check_interval:]) / len(bulk_times[-self.check_interval:]) 
 logger.info(f"已完成 {bulk_count} 次bulk操作，插入 {doc_count} 条文档，当前索引大小: {current_size:.2f}GB，最近{self.check_interval}次bulk平均耗时: {avg_bulk_time:.3f}秒") 
```
避免过于频繁的插入
```
 #time.sleep(0.01) # 减少延迟，提高测试速度 
```
end_time = time.time()
end_datetime = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
total_duration = end_time - start_time

计算统计信息
```
final_size = self.get_index_size_gb() 
avg_bulk_time = sum(bulk_times) / len(bulk_times) if bulk_times else 0 
total_docs_per_sec = doc_count / total_duration if total_duration > 0 else 0 
bulk_per_sec = bulk_count / total_duration if total_duration > 0 else 0 
```
logger.info(f"数据生成完成！")
logger.info(f"开始时间: {start_datetime}")
logger.info(f"结束时间: {end_datetime}")
logger.info(f"总耗时: {total_duration:.2f}秒 ({total_duration/60:.2f}分钟)")
logger.info(f"总计完成: {bulk_count} 次bulk操作")
logger.info(f"总计插入: {doc_count} 条文档")
logger.info(f"最终索引大小: {final_size:.2f}GB")
logger.info(f"平均每次bulk耗时: {avg_bulk_time:.3f}秒")
logger.info(f"平均bulk速率: {bulk_per_sec:.2f}次/秒")
logger.info(f"平均文档写入速率: {total_docs_per_sec:.0f}条/秒")

def main():
"""主函数"""
parser = argparse.ArgumentParser(description='四世同堂中文内容写入 Elasticsearch 脚本')
parser.add_argument('--host', default='localhost', help='ES 主机地址 (默认: localhost)')
parser.add_argument('--port', type=int, default=9200, help='ES 端口 (默认: 9200)')
parser.add_argument('--index', required=True, help='索引名称 (必填)')
parser.add_argument('--bulk-count', type=int, default=1000, help='目标 bulk 次数 (默认: 10000)')
parser.add_argument('--batch-size', type=int, default=1000, help='每次 bulk 的文档数量 (默认: 1000)')
parser.add_argument('--https', action='store_true', help='使用 HTTPS 协议')
parser.add_argument('--username', help='ES 用户名')
parser.add_argument('--password', help='ES 密码')
parser.add_argument('--no-verify-ssl', action='store_true', help='禁用 SSL 证书验证（默认已禁用）')

args = parser.parse_args()

protocol = "HTTPS" if args.https else "HTTP"
auth_info = f"认证: {args.username}" if args.username else "无认证"
ssl_info = "禁用SSL验证" if args.https else ""
logger.info(f"开始运行脚本，参数: {protocol}://{args.host}:{args.port}, 索引={args.index}, bulk次数={args.bulk_count}, {auth_info} {ssl_info}")

try:
generator = ESDataGenerator(
args.host,
args.port,
args.index,
args.bulk_count,
args.batch_size,
args.https,
args.username,
args.password,
not args.no_verify_ssl # 传入verify_ssl参数，但实际上总是False
)
generator.run()
except KeyboardInterrupt:
logger.info("用户中断了程序")
except Exception as e:
logger.error(f"程序运行出错: {e}")
logger.error(f"错误类型: {type(e).name}")

if name == "main":
main()

 根据脚本中的测试文本添加的词库如下： 
POST .analysis_ik/_doc
{
"dict_type": "main_dicts",
"dict_key": "test_dic",
"dict_content": """祁老人
祁天佑
韵梅
祁瑞宣
老二
钱默吟
小顺子
李四大爷
冠晓荷
小妞子
程长顺
老舍
李四大爷
小羊圈胡同
北平城
胡同
小茶馆
小门脸
小房屋
四合院
院子
祁家
小院子
杂货铺
小铺子
井边
街上
菜市场
门口
枝头
城市
房间
北京
清朝
民国
战乱
战争
日本人
抗战
大槐树
槐树
小鸟
羊
门脸
房屋
水桶
菜担子
铺子
老头儿
儿子
教书先生
儿媳妇
女人
大家庭
孩子
孩子们
街坊邻居
妻子
老人
文人
知识分子
青年
汉奸
岁月
一生
变迁
衰落
建立
态度
威望
尊严
学问
诗
性格
时局
见解
小天地
精神
慰藉
现实
无力
气节
笑声
生机
阴霾
天真
快乐
希望
烦恼
童年
生意
生活
物资
年代
经营
日子
邻里
文化
野心
敌人
选择
软弱
妥协
民族大义
个人利益
温暖
时期
未来
力量
压力
抗争
逃避
方式
时代
煎熬
折磨
笔触
众生相
人物
特点
命运
喜怒哀乐
内涵
达观
痛苦
坚强
堕落
缩影
威胁
困难
道德
家人
向往
关系
矛盾
温情
传统文化
组成部分
理想
教育
抱负
占领
写照
亮色
心理
原则
底线
节奏
意义
细节
乐趣
个性
约束
麻烦
担忧
反叛精神
束缚
反抗
后果
建筑
代表
故事
记忆
历史文化底蕴
破坏
作品
创伤
经历
教训
和平
窗口
清晨
春天
内心
玩耍
聊天
晒太阳
歌唱
合作
打水
卖奶
帮助
"""
}
 进行 2 次集中写入的记录如下： 

ik_max_test

2025-07-13 20:15:33,294 - INFO - 开始时间: 2025-07-13 19:45:07
2025-07-13 20:15:33,294 - INFO - 结束时间: 2025-07-13 20:15:33
2025-07-13 20:15:33,294 - INFO - 总耗时: 1825.31秒 (30.42分钟)
2025-07-13 20:15:33,294 - INFO - 总计完成: 1000 次bulk操作
2025-07-13 20:15:33,294 - INFO - 总计插入: 1000000 条文档
2025-07-13 20:15:33,294 - INFO - 最终索引大小: 0.92GB
2025-07-13 20:15:33,294 - INFO - 平均每次bulk耗时: 1.790秒
2025-07-13 20:15:33,294 - INFO - 平均bulk速率: 0.55次/秒
2025-07-13 20:15:33,294 - INFO - 平均文档写入速率: 548条/秒

ik_custom_test

2025-07-13 21:17:47,309 - INFO - 开始时间: 2025-07-13 20:44:03
2025-07-13 21:17:47,309 - INFO - 结束时间: 2025-07-13 21:17:47
2025-07-13 21:17:47,309 - INFO - 总耗时: 2023.53秒 (33.73分钟)
2025-07-13 21:17:47,309 - INFO - 总计完成: 1000 次bulk操作
2025-07-13 21:17:47,309 - INFO - 总计插入: 1000000 条文档
2025-07-13 21:17:47,309 - INFO - 最终索引大小: 0.92GB
2025-07-13 21:17:47,309 - INFO - 平均每次bulk耗时: 1.986秒
2025-07-13 21:17:47,309 - INFO - 平均bulk速率: 0.49次/秒
2025-07-13 21:17:47,309 - INFO - 平均文档写入速率: 494条/秒
```

可以看到，有一定损耗，自定义词库词典的效率是之前的 90%。

相关阅读
- [IK 字段级别词典升级：IK reload API
 ](https://infinilabs.cn/blog/202 ... rys-2/)
- [Easysearch 新功能： IK 字段级别词典
 ](https://infinilabs.cn/blog/202 ... narys/)
 
 关于 IK Analysis
 
 ![](https://infinilabs.cn/img/blog ... 2x.png)
 
 IK Analysis 插件集成了 Lucene IK 分析器，并支持自定义词典。它支持 Easysearch\Elasticsearch\OpenSearch 的主要版本。由 INFINI Labs 维护并提供支持。
 
 该插件包含分析器：ik_smart 和 ik_max_word，以及分词器：ik_smart 和 ik_max_word
 
 开源地址：<https://github.com/infinilabs/analysis-ik>;
 
 作者：金多安，极限科技（INFINI Labs）搜索运维专家，Elastic 认证专家，搜索客社区日报责任编辑。一直从事与搜索运维相关的工作，日常会去挖掘 ES / Lucene 方向的搜索技术原理，保持搜索相关技术发展的关注。
 原文：https://infinilabs.cn/blog/202 ... ys-3/

IK 字段级别词典升级：IK reload API

INFINI Labs 小助手发表了文章 • 0 个评论 • 3616 次浏览 • 2025-07-29 10:43 • 来自相关话题

之前介绍 [IK 字段级别字典](https://infinilabs.cn/blog/202 ... narys/) 使用的时候，对于字典的更新只是支持词典库的新增，并不支持对存量词典库的修改或者删除。经过这段时间的开发，已经可以兼容词典库的更新，主要通过 IK reload API 来实现。

IK reload API

IK reload API 通过对词典库的全量重新加载来实现词典库的更新或者删除。用户可以通过下面的命令实现：

```

测试索引准备

PUT my-index-000001
{
"settings": {
"number_of_shards": 3,
"analysis": {
"analyzer": {
"my_custom_analyzer": {
"type": "custom",
"tokenizer": "my_tokenizer"
}
},
"tokenizer": {
"my_tokenizer": {

"type": "ik_smart",
"custom_dict_enable": true,
"load_default_dicts":false, # 这里不包含默认词库
"lowcase_enable": true,
"dict_key": "test_dic"
}
}
}
},
"mappings": {
"properties": {
"test_ik": {
"type": "text",
"analyzer": "my_custom_analyzer"
}
}
}
}

原来词库分词效果，只预置了分词“自强不息”

GET my-index-000001/_analyze
{
"analyzer": "my_custom_analyzer",
"text":"自强不息，杨树林"
}

{
"tokens": [
{
"token": "自强不息",
"start_offset": 0,
"end_offset": 4,
"type": "CN_WORD",
"position": 0
},
{
"token": "杨",
"start_offset": 5,
"end_offset": 6,
"type": "CN_CHAR",
"position": 1
},
{
"token": "树",
"start_offset": 6,
"end_offset": 7,
"type": "CN_CHAR",
"position": 2
},
{
"token": "林",
"start_offset": 7,
"end_offset": 8,
"type": "CN_CHAR",
"position": 3
}
]
}

更新词库

POST .analysis_ik/_doc
{
"dict_key": "test_dic",
"dict_type": "main_dicts",
"dict_content":"杨树林"
}

删除词库，词库文档的id为coayoJcBFHNnLYAKfTML

DELETE .analysis_ik/_doc/coayoJcBFHNnLYAKfTML?refresh=true

重载词库

POST _ik/_reload
{}

更新后的词库效果

GET my-index-000001/_analyze
{
"analyzer": "my_custom_analyzer",
"text":"自强不息，杨树林"
}

{
"tokens": [
{
"token": "自",
"start_offset": 0,
"end_offset": 1,
"type": "CN_CHAR",
"position": 0
},
{
"token": "强",
"start_offset": 1,
"end_offset": 2,
"type": "CN_CHAR",
"position": 1
},
{
"token": "不",
"start_offset": 2,
"end_offset": 3,
"type": "CN_CHAR",
"position": 2
},
{
"token": "息",
"start_offset": 3,
"end_offset": 4,
"type": "CN_CHAR",
"position": 3
},
{
"token": "杨树林",
"start_offset": 5,
"end_offset": 8,
"type": "CN_WORD",
"position": 4
}
]
}
 这里是实现索引里全部的词库更新。 也可以实现单独的词典库更新 
POST _ik/_reload
{"dict_key":"test_dic”}

debug 日志

[2025-07-09T15:30:29,439][INFO ][o.e.a.i.ReloadIK ] [ik-1] 收到重载IK词典的请求，将在所有节点上执行。dict_key: test_dic, dict_index: .analysis_ik
[2025-07-09T15:30:29,439][INFO ][o.e.a.i.a.TransportReloadIKDictionaryAction] [ik-1] 在节点 [R6ESV5h1Q8OZMNoosSDEmg] 上执行词典重载操作，dict_key: test_dic, dict_index: .analysis_ik
 这里传入的 dict_key 对应的词库 id。 对于自定义的词库存储索引，也可以指定词库索引的名称，如果不指定则默认使用 .analysis_ik 
POST _ik/_reload
{"dict_index":"ik_index"}

debug 日志

[2025-07-09T15:32:59,196][INFO ][o.e.a.i.a.TransportReloadIKDictionaryAction] [ik-1] 在节点 [R6ESV5h1Q8OZMNoosSDEmg] 上执行词典重载操作，dict_key: null, dict_index: test_ik
[2025-07-09T15:32:59,196][INFO ][o.w.a.d.ReloadDict ] [ik-1] Reloading all dictionaries
```

注：

更新或者删除词库重载后只是对后续写入的文档生效，对已索引的文档无效；
因为用户无法直接更改 IK 内置的词库（即默认配置路径下的词库文件），因此 reload API 不会影响内置词库的信息。

相关阅读
- [IK 字段级别词典的升级之路
 ](https://infinilabs.cn/blog/202 ... rys-3/)
- [Easysearch 新功能： IK 字段级别词典
 ](https://infinilabs.cn/blog/202 ... narys/)
 
 关于 IK Analysis
 
 ![](https://infinilabs.cn/img/blog ... 2x.png)
 
 IK Analysis 插件集成了 Lucene IK 分析器，并支持自定义词典。它支持 Easysearch\Elasticsearch\OpenSearch 的主要版本。由 INFINI Labs 维护并提供支持。
 
 该插件包含分析器：ik_smart 和 ik_max_word，以及分词器：ik_smart 和 ik_max_word
 
 开源地址：<https://github.com/infinilabs/analysis-ik>;
 
 作者：金多安，极限科技（INFINI Labs）搜索运维专家，Elastic 认证专家，搜索客社区日报责任编辑。一直从事与搜索运维相关的工作，日常会去挖掘 ES / Lucene 方向的搜索技术原理，保持搜索相关技术发展的关注。
 原文：https://infinilabs.cn/blog/202 ... ys-2/

Easysearch 集成阿里云与 Ollama Embedding API，构建端到端的语义搜索系统

INFINI Labs 小助手发表了文章 • 0 个评论 • 5821 次浏览 • 2025-07-28 17:48 • 来自相关话题

背景

在当前 AI 与搜索深度融合的时代，语义搜索已成为企业级应用的核心能力之一。作为 Elasticsearch 的国产化替代方案，Easysearch 不仅具备高性能、高可用、弹性伸缩等企业级特性，更通过灵活的插件化架构，支持多种主流 Embedding 模型服务，包括 阿里云通义千问（DashScope） 和 本地化 Ollama 服务，实现对 OpenAI 接口规范的完美兼容。

本文将详细介绍如何在 Easysearch 中集成阿里云和 Ollama 的 Embedding API，构建端到端的语义搜索系统，并提供完整的配置示例与流程图解析。

---

一、为什么选择 Easysearch？

Easysearch 是由极限科技（INFINI Labs）自主研发的分布式近实时搜索型数据库，具备以下核心优势：

✅ 完全兼容 Elasticsearch 7.x API 及 8.x 常用操作
✅ 原生支持向量检索（kNN）、语义搜索、混合检索
✅ 内置数据摄入管道与搜索管道，支持 AI 模型集成
✅ 支持国产化部署、数据安全可控
✅ 高性能、低延迟、可扩展性强

尤其在 AI 增强搜索场景中，Easysearch 提供了强大的 text_embedding 和 semantic_query_enricher 处理器，允许无缝接入外部 Embedding 模型服务。

---

二、支持的 Embedding 服务

Easysearch 通过标准 OpenAI 兼容接口无缝集成各类第三方 Embedding 模型服务，理论上支持所有符合 OpenAI Embedding API 规范的模型。以下是已验证的典型服务示例：

| 服务类型 | 模型示例 | 接口协议 | 部署方式 | 特点 |
| ------------- | ----------------------------- | ----------- | ----------- | ------------------ |
| 云端 SaaS | 阿里云 DashScope | OpenAI 兼容 | 云端 | 开箱即用，高可用性 |
| | OpenAI text-embedding-3 | OpenAI 原生 | 云端 | |
| | 其他兼容 OpenAI 的云服务 | OpenAI 兼容 | 云端 | |
| 本地部署 | Ollama (nomic-embed-text等) | 自定义 API | 本地/私有化 | 数据隐私可控 |
| | 自建开源模型（如 BGE、M3E） | OpenAI 兼容 | 本地/私有化 | 灵活定制 |

核心优势：
1. 广泛兼容性
 支持任意实现 OpenAI Embedding API 格式（/v1/embeddings）的服务，包括：
 - 请求格式：{ "input": "text", "model": "model_name" }
 - 响应格式：{ "data": [{ "embedding": [...] }] }
2. 即插即用
 仅需配置服务端点的 base_url 和 api_key 即可快速接入新模型。
3. 混合部署
 可同时配置多个云端或本地模型，根据业务需求灵活切换。
 
 ---
 
 三、结合 AI 服务流程图
 
 ![](https://infinilabs.cn/img/blog ... /1.png)
 说明：
 - 索引阶段：通过 Ingest Pipeline 调用 Embedding API，将文本转为向量并存储。
 - 搜索阶段：通过 Search Pipeline 动态生成查询向量，执行语义相似度匹配。
 - 所有 API 调用均兼容 OpenAI 接口格式，降低集成成本。
 
 ---
 
 四、集成阿里云 DashScope（通义千问）
 
 阿里云 DashScope 提供高性能文本嵌入模型 text-embedding-v4，支持 256 维向量输出，适用于中文语义理解任务。
 
 1. 创建 Ingest Pipeline（索引时生成向量）
 
 auto PUT _ingest/pipeline/text-embedding-aliyun { "description": "阿里云用于生成文本嵌入向量的管道", "processors": [ { "text_embedding": { "url": "<a href="https://dashscope.aliyuncs.com/compatible-mode/v1/embeddings"" rel="nofollow" target="_blank">https://dashscope.aliyuncs.com ... ot%3B</a>, "vendor": "openai", "api_key": "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx", "text_field": "input_text", "vector_field": "text_vector", "model_id": "text-embedding-v4", "dims": 256, "batch_size": 5 } } ] } 
 
 2. 创建索引并定义向量字段
 
 auto PUT /my-index { "mappings": { "properties": { "input_text": { "type": "text", "fields": { "keyword": { "type": "keyword", "ignore_above": 256 } } }, "text_vector": { "type": "knn_dense_float_vector", "knn": { "dims": 256, "model": "lsh", "similarity": "cosine", "L": 99, "k": 1 } } } } } 
 
 3. 使用 Pipeline 批量写入数据
 
 auto POST /_bulk?pipeline=text-embedding-aliyun&refresh=wait_for { "index": { "_index": "my-index", "_id": "1" } } { "input_text": "风急天高猿啸哀，渚清沙白鸟飞回..." } { "index": { "_index": "my-index", "_id": "2" } } { "input_text": "月落乌啼霜满天，江枫渔火对愁眠..." } ... 
 
 4. 配置 Search Pipeline（搜索时动态生成向量）
 
 auto PUT /_search/pipeline/search_model_aliyun { "request_processors": [ { "semantic_query_enricher": { "tag": "tag1", "description": "阿里云 search embedding model", "url": "<a href="https://dashscope.aliyuncs.com/compatible-mode/v1/embeddings"" rel="nofollow" target="_blank">https://dashscope.aliyuncs.com ... ot%3B</a>, "vendor": "openai", "api_key": "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx", "default_model_id": "text-embedding-v4", "vector_field_model_id": { "text_vector": "text-embedding-v4" } } } ] } 
 
 5. 设置索引默认搜索管道
 
 auto PUT /my-index/_settings { "index.search.default_pipeline": "search_model_aliyun" } 
 
 6. 执行语义搜索
 
 auto GET /my-index/_search { "_source": "input_text", "query": { "semantic": { "text_vector": { "query_text": "风急天高猿啸哀，渚清沙白鸟飞回...", "candidates": 10, "query_strategy": "LSH_COSINE" } } } } 
 
 搜索结果示例：
 
 auto "hits": [ { "_id": "1", "_score": 2.0, "_source": { "input_text": "风急天高猿啸哀..." } }, { "_id": "4", "_score": 1.75, "_source": { "input_text": "白日依山尽..." } }, ... ] 
 
 结果显示：相同诗句匹配得分最高，其他古诗按语义相似度排序，效果理想。
 
 ---
 
 五、集成本地 Ollama 服务
 
 Ollama 支持在本地运行开源 Embedding 模型（如 nomic-embed-text），适合对数据隐私要求高的场景。
 
 1. 启动 Ollama 服务
 
 bash ollama serve ollama pull nomic-embed-text:latest 
 
 2. 创建 Ingest Pipeline（使用 Ollama）
 
 auto PUT _ingest/pipeline/ollama-embedding-pipeline { "description": "Ollama embedding 示例", "processors": [ { "text_embedding": { "url": "<a href="http://localhost:11434/api/embed"" rel="nofollow" target="_blank">http://localhost:11434/api/embed"</a>, "vendor": "ollama", "text_field": "input_text", "vector_field": "text_vector", "model_id": "nomic-embed-text:latest" } } ] } 
 
 3. 创建 Search Pipeline（搜索时使用 Ollama）
 
 auto PUT /_search/pipeline/ollama_model_pipeline { "request_processors": [ { "semantic_query_enricher": { "tag": "tag1", "description": "Sets the ollama model", "url": "<a href="http://localhost:11434/api/embed"" rel="nofollow" target="_blank">http://localhost:11434/api/embed"</a>, "vendor": "ollama", "default_model_id": "nomic-embed-text:latest", "vector_field_model_id": { "text_vector": "nomic-embed-text:latest" } } } ] } 
 
 后续步骤与阿里云一致：创建索引 → 写入数据 → 搜索查询。
 
 ---
 
 六、安全性说明
 
 Easysearch 在处理 API Key 时采取以下安全措施：
🔐 所有 api_key 在返回时自动加密脱敏（如 TfUmLjPg...infinilabs）
🔒 支持密钥管理插件（如 Hashicorp Vault 集成）
🛡️ 支持 HTTPS、RBAC、审计日志等企业级安全功能

确保敏感信息不被泄露，满足合规要求。

---

七、总结

通过 Easysearch 的 Ingest Pipeline 与 Search Pipeline，我们可以轻松集成：
✅ 阿里云 DashScope（云端高性能）
✅ Ollama（本地私有化部署）
✅ 其他支持 OpenAI 接口的 Embedding 服务

无论是追求性能还是数据安全，Easysearch 都能提供灵活、高效的语义搜索解决方案。

---

八、下一步建议
尝试混合检索：结合关键词匹配与语义搜索
使用 Rerank 模型提升排序精度
部署多节点集群提升吞吐量
接入 INFINI Gateway 实现统一 API 网关管理

---

参考链接
[Easysearch 官网文档](https://docs.infinilabs.com/easysearch)
[阿里云 DashScope 文档](https://help.aliyun.com/zh/mod ... dding/)
[Ollama 官方网站](https://ollama.com)
[INFINI Labs GitHub](https://github.com/infinilabs)

---

关于 Easysearch

![](https://infinilabs.cn/img/blog ... er.png)

INFINI Easysearch 是一个分布式的搜索型数据库，实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch，同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。

官网文档：<https://docs.infinilabs.com/easysearch>;

作者：张磊，极限科技（INFINI Labs）搜索引擎研发负责人，对 Elasticsearch 和 Lucene 源码比较熟悉，目前主要负责公司的 Easysearch 产品的研发以及客户服务工作。
原文：https://infinilabs.cn/blog/202 ... -API/

一键启动：使用 start-local 脚本轻松管理 INFINI Console 与 Easysearch 本地环境

INFINI Labs 小助手发表了文章 • 0 个评论 • 6013 次浏览 • 2025-07-01 19:15 • 来自相关话题

系列回顾与引言

在我们的 INFINI 本地环境搭建系列博客中：

第一篇《[搭建持久化的 INFINI Console 与 Easysearch 容器环境](https://infinilabs.cn/blog/202 ... docker)》，我们深入探讨了如何使用基础的 docker run 命令，一步步构建起 Console 和 Easysearch 服务，并重点解决了数据持久化的问题。
第二篇《[使用 Docker Compose 简化 INFINI Console 与 Easysearch 环境搭建](https://infinilabs.cn/blog/202 ... ompose)》，我们学习了如何利用 Docker Compose 的声明式配置，将多容器应用的定义和管理变得更加简洁高效。

虽然 Docker Compose 已经极大地提升了便利性，但在实际的开发和测试流程中，我们可能还需要处理版本选择、初始配置复制、多节点配置、指标采集开启等更细致的需求。为了进一步封装这些复杂性，提供真正的一键式体验，我们精心打造了一个强大的 Shell 脚本 [start-local](https://github.com/infinilabs/ ... cal.sh) 。

本篇文章将带你领略 start-local 的魅力，看看它是如何将 Console 和 Easysearch (本文仍以 Console 1.29.6 和 Easysearch 1.13.0 为例) 的本地环境搭建与管理提升到一个全新的便捷高度——只需一行命令，即可拥有一个功能完备、数据持久的本地 INFINI Console 运行环境。

start-local：您的 INFINI Console 本地环境瑞士军刀

start-local 脚本（灵感来源于 [elastic/start-local](https://github.com/elastic/start-local)）集成了环境搭建的诸多最佳实践，旨在提供极致的易用性。它在后台仍然依赖 Docker 和 Docker Compose，但为用户屏蔽了底层的复杂配置细节。

核心功能：
- 智能版本管理：自动获取 INFINI Console 和 Easysearch 的最新稳定版（或你指定的版本）作为默认镜像标签。
- 动态配置生成：根据用户提供的命令行选项（如节点数、密码、版本等）自动生成 .env 和 docker-compose.yml 文件。
- 初始配置自动处理：在首次启动或本地配置目录不存在时，自动从 Docker 镜像中提取并设置初始配置文件。
- 一键式生命周期管理：通过简单的命令 (up, down, logs, clean) 管理整个应用的启动、停止、日志查看和彻底清理。
- 持久化内置：默认将所有关键数据（配置、索引数据、日志）持久化到本地的 ./startlocal 目录（可配置）。
- 集成 Agent 指标采集：通过 --metrics-agent 选项，轻松启用 Easysearch 的指标收集并自动配置其指向 INFINI Console。
- 跨平台设计：主要针对 Linux 和 macOS 环境。
 
 如何获取和使用 start-local
 
 获取和执行 start-local 最便捷的方式是通过 curl 将脚本内容直接通过管道传递给 sh 执行：
 
```bash

启动默认配置 (Console + 1 个 Easysearch 节点)

curl -fsSL http://get.infini.cloud/start-local | sh -s

想要更丰富的体验？试试这个：

启动 3 个 Easysearch 节点，设置密码，并开启 Agent 指标采集

curl -fsSL http://get.infini.cloud/start-local | sh -s -- up --nodes 3 --password "MyDevPass123." --metrics-agent
`` _(请将 http://get.infini.cloud/start-local替换为脚本的实际官方获取地址)_  sh -s --部分确保脚本从标准输入读取，并且后续参数能正确传递给脚本。 脚本执行后，所有操作文件和持久化数据都会在当前目录下的./startlocal` (默认) 子目录中创建和管理。

start-local 命令和选项概览

通过 help 命令可以查看所有支持的功能：

bash curl -fsSL <a href="http://get.infini.cloud/start-local" rel="nofollow" target="_blank">http://get.infini.cloud/start-local</a> | sh -s -- help 

以下是一些最常用的命令和选项：

命令 (COMMAND):
- up: 核心命令。创建并启动定义的服务。自动处理初始配置。
- down: 停止服务，移除容器、网络和相关匿名卷。本地持久化数据不受影响。
- logs [服务名...]: 实时查看指定服务或所有服务的日志。
- clean: 彻底清理。执行 down 后，删除整个工作目录 (./startlocal 及其所有内容)。
- help: 显示帮助信息。
 
 常用选项 (OPTIONS) (主要用于 up 命令):
- -cv TAG, --console-version TAG: 指定 Console 镜像版本 (例如 1.29.6)。
- -ev TAG, --easysearch-version TAG: 指定 Easysearch 镜像版本 (例如 1.13.0)。
- -n N, --nodes N: Easysearch 节点数量 (默认 1)。
- -p PASSWORD, --password PASSWORD: Easysearch admin 用户初始密码 (默认 ShouldChangeme123.)。
- --services s1[,s2,...]: 指定要启动的服务 (可选值: console, easysearch)。如果未指定，默认启动两者。
- --metrics-agent: 启用 Easysearch 指标收集代理。
- -wd PATH, --work-dir PATH: 自定义工作目录，替代默认的 ./startlocal。
 
 实际操作示例
 
 让我们通过几个示例来感受 start-local 的便捷：
 
 1. 启动一个标准的开发环境 (Console + 1 个 Easysearch 节点，开启指标)
 
 bash curl -fsSL <a href="http://get.infini.cloud/start-local" rel="nofollow" target="_blank">http://get.infini.cloud/start-local</a> | sh -s 
 
 脚本会自动完成所有后台工作：检查依赖、确定版本、创建工作目录、生成配置文件、复制初始配置、生成 docker-compose.yml，最后启动服务并打印访问地址。
 
 2. 启动一个 3 节点的 Easysearch 集群，并指定版本和密码
 
 bash curl -fsSL <a href="http://get.infini.cloud/start-local" rel="nofollow" target="_blank">http://get.infini.cloud/start-local</a> | sh -s -- up \ --nodes 3 \ --password "ComplexP@ssw0rd." \ --console-version 1.29.6 \ --easysearch-version 1.13.0 \ --services easysearch,console 
 
 脚本会智能处理多节点配置和持久化目录结构。
 
 3. 查看所有服务的日志
 
 bash curl -fsSL <a href="http://get.infini.cloud/start-local" rel="nofollow" target="_blank">http://get.infini.cloud/start-local</a> | sh -s -- logs 
 
 4. 停止运行环境（慎重操作）
 
 bash curl -fsSL <a href="http://get.infini.cloud/start-local" rel="nofollow" target="_blank">http://get.infini.cloud/start-local</a> | sh -s -- down 
 
 这将停止运行的所有容器。
 
 4. 删除运行环境（慎重操作）
 
 bash curl -fsSL <a href="http://get.infini.cloud/start-local" rel="nofollow" target="_blank">http://get.infini.cloud/start-local</a> | sh -s -- clean 
 
 这将移除所有相关的 Docker 资源以及本地的 ./startlocal 目录。
 
 持久化：数据安全无忧
 
 start-local 脚本的核心设计之一就是确保数据的持久化。所有重要的配置、数据和日志都会映射到宿主机的 ./startlocal (或你通过 -wd 指定的) 目录下的结构化子目录中：
- Console: ./startlocal/console/{config,data,logs}/
- Easysearch (单节点): ./startlocal/easysearch/{config,data,logs}/
- Easysearch (多节点): ./startlocal/easysearch/node-X/{config,data,logs}/
 
 这意味着你可以随时 down 和 up 你的环境，而不用担心丢失任何工作。
 
 访问服务
 
 启动成功后，脚本会打印出访问地址：
- INFINI Console: <a href="http://localhost:9000" rel="nofollow" target="_blank">http://localhost:9000</a> (默认主机端口)
- INFINI Easysearch: <a href="https://localhost:9200" rel="nofollow" target="_blank">https://localhost:9200</a> (默认主机端口，用户 admin，密码为你设置的或默认值)
 
 总结：从复杂到简单，专注核心价值
 
 从繁琐的 docker run 命令，到结构化的 docker-compose.yml，再到如今便捷的 start-local 脚本，我们一步步简化了 INFINI 本地环境的搭建和管理过程。start-local 将所有底层的复杂性封装起来，让你能够通过一行命令就拥有一个功能齐全、数据持久的本地环境，从而更专注于应用本身的功能测试、开发和学习。
 
 这正是良好工具的价值所在——让复杂的事情变简单，让我们能更高效地创造。
 
 希望这个 [start-local](https://github.com/infinilabs/ ... cal.sh) 脚本能成为你日常工作中得力的助手！如果你有任何建议或发现问题，欢迎通过项目仓库反馈。
 
 关于 INFINI Console
 
 ![](https://infinilabs.cn/img/blog ... 2x.png)
 
 INFINI Console 是一款开源的非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管，企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。INFINI Console 还可以对集群内的索引及数据进行操作管理，可以配置灵活的告警规则，可以指定统一的安全策略，可以查看各个维度的日志和审计信息，真正实现企业级的搜索服务平台化建设和运营。
 
 官网文档：<https://docs.infinilabs.com/console/main/>;
 开源地址：<https://github.com/infinilabs/console>;
 
 作者：罗厚付，极限科技（INFINI Labs）云上产品设计与研发负责人，拥有多年安全风控及大数据系统架构经验，主导过多个核心产品的设计与落地，日常负责运维超大规模 ES 集群（800+节点/1PB+数据）。
 原文：http://localhost:1313/blog/202 ... ocal/

使用 Docker Compose 简化 INFINI Console 与 Easysearch 环境搭建

INFINI Labs 小助手发表了文章 • 0 个评论 • 5269 次浏览 • 2025-07-01 19:14 • 来自相关话题

前言回顾

在上一篇文章《[搭建持久化的 INFINI Console 与 Easysearch 容器环境](https://infinilabs.cn/blog/202 ... ocker/)》中，我们详细介绍了如何使用基础的 docker run 命令，手动启动和配置 INFINI Console (1.29.6) 和 INFINI Easysearch (1.13.0) 容器，并实现了关键数据的持久化，解决了重启后配置丢失的问题。

手动操作虽然能让我们深入理解 Docker 的核心机制，但在管理多个容器、网络和卷时，命令会变得冗长且容易出错。这时，Docker Compose 就派上了用场。它允许我们使用一个 YAML 文件来定义和运行多容器 Docker 应用程序。

本篇文章将演示如何将上一篇的手动步骤转换为使用 Docker Compose，让你更轻松地管理和维护这套本地开发测试环境。

Docker Compose 的优势

使用 Docker Compose 带来了诸多好处：

声明式配置：在一个 docker-compose.yml 文件中定义所有服务、网络和卷，清晰明了。
一键式管理：使用简单的命令（如 docker compose up, docker compose down）即可启动、停止和重建整个应用环境。
简化网络和服务连接：Compose 会自动处理服务间的网络设置和依赖关系。
易于共享和版本控制：docker-compose.yml 文件可以轻松地与团队共享并通过版本控制系统（如 Git）进行管理。

准备工作

与上一篇类似，你需要：
操作系统: macOS (本文示例)
Docker 环境: OrbStack ([https://orbstack.dev/](https://orbstack.dev/)) 或 Docker Desktop for Mac。
确保 Docker Compose V2 (docker compose) 或 V1 (docker-compose) 已安装并可用。
查看 docker compose 版本

bash docker compose version Docker Compose version v2.24.5 

步骤一：项目目录结构

我们将继续使用上一篇文章中创建的目录结构。如果你还没有创建，或者想重新开始，可以在你的项目根目录（例如 ~/infini_compose_lab）下创建如下结构：

```bash

1. 创建项目根目录

mkdir -p ~/infini_compose_lab
cd ~/infini_compose_lab

2. 为 Console 和 Easysearch 创建持久化子目录

这些目录将用于存储配置、数据和日志

mkdir -p console/config console/data console/logs
mkdir -p easysearch/config easysearch/data easysearch/logs
```

步骤二：提取初始配置文件

这一步与上一篇完全相同。你在首次启动时使用从镜像中提取的默认配置，请执行以下操作。如果这些目录中已存在配置文件（例如从上一篇博客的操作中保留下来的），Docker Compose 在挂载时会直接使用它们。

1. INFINI Console (1.29.6) 初始配置
(容器内配置路径: /config)

```bash

确保在 ~/infini_compose_lab 目录下

docker pull infinilabs/console:1.29.6
docker run --rm \
-v $PWD/console/config:/temp_host_config \
infinilabs/console:1.29.6 \
sh -c "cp -a /config/. /temp_host_config/ && chmod -R ugo+rw /temp_host_config/"
 **2. INFINI Easysearch (1.13.0) 初始配置** (容器内配置路径: `/app/easysearch/config`，初始密码: `INFINILabs01`) **重要提示：请务必为 Easysearch 设置安全的密码。** bash

确保在 ~/infini_compose_lab 目录下

docker pull infinilabs/easysearch:1.13.0
docker run --rm \
-e EASYSEARCH_INITIAL_ADMIN_PASSWORD="INFINILabs01" \
-v $PWD/easysearch/config:/temp_host_config \
infinilabs/easysearch:1.13.0 \
sh -c "cp -a /app/easysearch/config/. /temp_host_config/ && chmod -R ugo+rw /temp_host_config/"
```

步骤三：创建 docker-compose.yml 文件

这是核心步骤。在你的项目根目录 ~/infini_compose_lab 下，创建一个名为 docker-compose.yml 的文件，并填入以下内容。这个文件定义了我们的服务、它们如何运行以及它们如何交互。

```bash
cat < docker-compose.yml
services:
easysearch:
image: infinilabs/easysearch:1.13.0
container_name: infini-easysearch
environment:
- cluster.name=infini_compose_cluster
- node.name=node-01
- cluster.initial_master_nodes=node-01
- "ES_JAVA_OPTS=-Xms1g -Xmx1g"
- EASYSEARCH_INITIAL_ADMIN_PASSWORD=INFINILabs01
 ports:
- "9200:9200"
- "9300:9300"
 volumes:
- ./easysearch/config:/app/easysearch/config
- ./easysearch/data:/app/easysearch/data
- ./easysearch/logs:/app/easysearch/logs
 ulimits:
 memlock: {soft: -1, hard: -1}
 nofile: {soft: 65536, hard: 65536}
 networks:
- infini_app_net
 
 console:
 image: infinilabs/console:1.29.6
 container_name: infini-console
 ports:
- "9000:9000"
 volumes:
- ./console/config:/config
- ./console/data:/data
- ./console/logs:/log
 networks:
- infini_app_net
 
 networks:
 infini_app_net:
 driver: bridge
 EOF
 `` **docker-compose.yml` 文件关键点：**
services: 定义了 easysearch 和 console 两个服务。
image: 指定了每个服务使用的 Docker 镜像和版本。
container_name: 为容器指定一个易于识别的名称。
environment: 设置容器的环境变量。
Easysearch 单节点配置: 注意 cluster.initial_master_nodes 设置为节点自身的名称。
ports: 将容器的端口映射到宿主机的端口。
volumes: 实现持久化的核心。将宿主机当前目录 (./) 下的 console/* 和 easysearch/* 子目录分别映射到容器内对应的路径。
networks: 将两个服务都连接到我们定义的 infini_app_net 网络。这使得 console 服务可以通过服务名 easysearch (例如 <a href="https://easysearch:9200" rel="nofollow" target="_blank">https://easysearch:9200</a>) 来访问 easysearch 服务。

步骤四：使用 Docker Compose 启动环境

现在，所有配置都在 docker-compose.yml 文件中了。启动整个环境只需要一条命令。
在 ~/infini_compose_lab 目录下（包含 docker-compose.yml 文件），执行：

bash docker compose up -d 
docker compose (V2) 或 docker-compose (V1)。
up: 创建并启动在 docker-compose.yml 中定义的所有服务。
-d: 后台模式运行。

首次运行时，如果本地没有对应的镜像，Docker Compose 会自动拉取。

常用 Docker Compose 命令：
查看服务状态：

bash docker compose ps 
查看所有服务的实时日志：

bash docker compose logs -f 
查看特定服务的日志：

bash docker compose logs -f console docker compose logs -f easysearch 
停止所有服务（保留数据）：

bash docker compose stop 
停止并移除所有容器、网络和匿名卷（保留通过 volumes 映射的本地数据）：

bash docker compose down 

步骤五：验证和使用
1. 访问 Console: 浏览器打开 <a href="http://localhost:9000" rel="nofollow" target="_blank">http://localhost:9000</a>。
2. 进行配置: 在 Console 中连接 Easysearch (<a href="https://easysearch:9200" rel="nofollow" target="_blank">https://easysearch:9200</a>，因为它们在同一个 Docker 网络中，可以直接使用服务名)，创建用户，查看监控等。
3. 测试持久化:
 
```bash
docker compose down # 停止并移除容器

稍等片刻

docker compose up -d # 重新启动
`` 再次访问 http://localhost:9000`，你会发现之前的配置都还在！

操作截图

![](https://infinilabs.cn/img/blog ... 01.png)

![](https://infinilabs.cn/img/blog ... 02.png)

![](https://infinilabs.cn/img/blog ... 03.png)

![](https://infinilabs.cn/img/blog ... 04.png)

彻底清理，包括删除命名卷（如果使用了的话）和本地数据(可选)

```bash
 
 -v 移除命名卷
 
 docker compose down -v
 
 然后手动删除本地持久化目录
 
 rm -rf ~/infini_compose_lab/console
 rm -rf ~/infini_compose_lab/easysearch
```

总结

通过 Docker Compose，我们用一个简洁的 docker-compose.yml 文件取代了之前冗长的 docker run 命令，极大地简化了 INFINI Console 和 Easysearch 本地环境的搭建和管理过程。同时，通过正确的卷挂载配置，我们依然确保了数据的持久化，解决了重启后配置丢失的问题。

对于开发、测试和快速原型验证，Docker Compose 无疑是一个强大而高效的工具。希望本教程能帮助你更轻松地使用 INFINI Console 进行本地实验和开发！

关于 INFINI Console

![](https://infinilabs.cn/img/blog ... 2x.png)

INFINI Console 是一款开源的非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管，企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。INFINI Console 还可以对集群内的索引及数据进行操作管理，可以配置灵活的告警规则，可以指定统一的安全策略，可以查看各个维度的日志和审计信息，真正实现企业级的搜索服务平台化建设和运营。

官网文档：<https://docs.infinilabs.com/console/main/>;
开源地址：<https://github.com/infinilabs/console>;

作者：罗厚付，极限科技（INFINI Labs）云上产品设计与研发负责人，拥有多年安全风控及大数据系统架构经验，主导过多个核心产品的设计与落地，日常负责运维超大规模 ES 集群（800+节点/1PB+数据）。
原文：https://infinilabs.cn/blog/202 ... pose/

如何搭建持久化的 INFINI Console 与 Easysearch 容器环境

INFINI Labs 小助手发表了文章 • 0 个评论 • 5285 次浏览 • 2025-07-01 19:13 • 来自相关话题

背景介绍

许多用户在使用 Docker 部署 INFINI Console（本文使用 1.29.6 版本）时，可能会遇到一个常见问题：重启容器后，之前在 INFINI Console 中所连接的系统集群配置会丢失。这个问题通常源于未能正确配置 Docker 的数据持久化。原本通过 Docker 运行 INFINI Console 只是一个简单的测试示例，并未考虑多次重启使用，现官方文档也进行了更新，参考：[容器部署](https://docs.infinilabs.com/co ... ocker/)

接下来我们本地测试一下。

理解核心问题：Docker 容器与数据持久化

默认情况下，Docker 容器的文件系统是临时的。当容器被停止并删除后，容器内部所做的任何未被持久化的更改都会丢失。INFINI Console 的配置存储在其容器内部的特定目录中。为了在容器重启或重建后保留这些信息，我们必须将这些关键目录映射到宿主机（你的电脑）上的持久化存储位置。

准备工作

操作系统: macOS (本文示例)

Docker 环境: OrbStack ([https://orbstack.dev/](https://orbstack.dev/)) 或 Docker Desktop for Mac。

请确保 Docker 服务已启动并正常运行。你可以通过在终端执行 docker --version 来验证。

bash docker --version Docker version 25.0.5, build 5dc9bcc 

步骤一：创建本地持久化目录和自定义 Docker 网络

首先，在宿主机上为 Console 和 Easysearch 创建用于存储配置、数据和日志的目录。同时，创建一个自定义 Docker 网络，以便容器之间可以通过名称进行通信。

```bash

1. 创建项目根目录和各个服务的持久化子目录

mkdir -p ~/infini_manual_setup/console/config ~/infini_manual_setup/console/data ~/infini_manual_setup/console/logs
mkdir -p ~/infini_manual_setup/easysearch/config ~/infini_manual_setup/easysearch/data ~/infini_manual_setup/easysearch/logs
cd ~/infini_manual_setup

2. 创建一个自定义的 Docker 桥接网络

docker network create infini_app_net
```

infini_app_net 是我们为这两个容器创建的自定义网络名称。

步骤二：提取初始配置文件

为了方便首次启动和后续自定义，我们需要从官方 Docker 镜像中提取默认的配置文件到我们本地创建的持久化目录中。

1. INFINI Console (1.29.6) 初始配置
根据 INFINI Console [官方 Docker 文档](https://docs.infinilabs.com/co ... docker)，其容器内配置文件位于 /config。

bash docker pull infinilabs/console:1.29.6 docker run --rm \ -v $PWD/console/config:/temp_host_config \ infinilabs/console:1.29.6 \ sh -c "cp -a /config/. /temp_host_config/ && chmod -R ugo+rw /temp_host_config/" 

2. INFINI Easysearch (1.13.0) 初始配置
INFINI Easysearch 镜像内部的配置文件位于 /app/easysearch/config，并且需要初始管理员密码 INFINILabs01。

重要提示：请务必为 Easysearch 设置安全的密码。

bash docker pull infinilabs/easysearch:1.13.0 docker run --rm \ -e EASYSEARCH_INITIAL_ADMIN_PASSWORD="INFINILabs01" \ -v $PWD/easysearch/config:/temp_host_config \ infinilabs/easysearch:1.13.0 \ sh -c "cp -a /app/easysearch/config/. /temp_host_config/ && chmod -R ugo+rw /temp_host_config/" 

现在，你的本地 console/config 和 easysearch/config 目录应该包含了初始配置文件。

检查目录如下

bash tree -L 3 . . ├── console │ ├── config │ │ ├── install_agent.tpl │ │ ├── permission.json │ │ ├── setup │ │ └── system_config.tpl │ ├── data │ └── logs └── easysearch ├── config │ ├── admin.crt │ ├── admin.key │ ├── analysis-ik │ ├── ca.crt │ ├── ca.key │ ├── easysearch.yml │ ├── easysearch.yml.example │ ├── instance.crt │ ├── instance.key │ ├── jvm.options │ ├── jvm.options.d │ ├── log4j2.properties │ └── security ├── data └── logs 

步骤三：手动运行 INFINI Easysearch 容器

使用 docker run 命令启动 Easysearch，并配置端口映射、环境变量和最重要的——卷挂载。

bash docker run -d \ --name easysearch01 \ --network infini_app_net \ -p 9200:9200 \ -p 9300:9300 \ -e cluster.name="infini_local_cluster" \ -e node.name="easysearch-node01" \ -e cluster.initial_master_nodes="easysearch-node01" \ -e "ES_JAVA_OPTS=-Xms1g -Xmx1g" \ -e EASYSEARCH_INITIAL_ADMIN_PASSWORD="INFINILabs01" \ -v $PWD/easysearch/config:/app/easysearch/config \ -v $PWD/easysearch/data:/app/easysearch/data \ -v $PWD/easysearch/logs:/app/easysearch/logs \ --ulimit memlock=-1:-1 \ --ulimit nofile=65536:65536 \ infinilabs/easysearch:1.13.0 

关键参数解释：

--name easysearch01: 为容器指定一个名称。

--network infini_app_net: 连接到自定义网络。

-p HOST_PORT:CONTAINER_PORT: 端口映射。

-e VARIABLE=VALUE: 设置环境变量。

-v $PWD/host/path:/container/path: 实现持久化的核心。将宿主机当前工作目录 ($PWD) 下的子目录映射到容器内的指定路径。

步骤四：手动运行 INFINI Console 容器

现在启动 Console 容器，同样配置网络、端口、环境变量和卷挂载。

bash docker run -d \ --name console01 \ --network infini_app_net \ -p 9000:9000 \ -v $PWD/console/config:/config \ -v $PWD/console/data:/data \ -v $PWD/console/logs:/log \ infinilabs/console:1.29.6 

查看日志

bash docker logs -f easysearch01 docker logs -f console01 

步骤五：验证服务和持久化

检查容器状态: docker ps (应能看到 easysearch01 和 console01)。

访问 Console: 浏览器打开 <a href="http://localhost:9000" rel="nofollow" target="_blank">http://localhost:9000</a>。

在 Console 中进行初始化配置

测试持久化 (重启 Console 容器):

```bash
docker stop console01
docker rm console01

重新运行步骤四中启动 Console 的 docker run 命令 (确保所有参数一致)

`` 操作截图 ![](<a href="https://infinilabs.cn/img/blog/2025/console-easysearch-with-docker/image-001.pn" rel="nofollow" target="_blank">https://infinilabs.cn/img/blog ... 01.pn</a>g) ![](<a href="https://infinilabs.cn/img/blog/2025/console-easysearch-with-docker/image-002.pn" rel="nofollow" target="_blank">https://infinilabs.cn/img/blog ... 02.pn</a>g) ![](<a href="https://infinilabs.cn/img/blog/2025/console-easysearch-with-docker/image-003.pn" rel="nofollow" target="_blank">https://infinilabs.cn/img/blog ... 03.pn</a>g) **再次访问 Console**: 打开 http://localhost:9000`。如果一切正常，证明持久化成功。

步骤六：停止和清理(可选)

停止容器: docker stop console01 easysearch01

移除容器: docker rm console01 easysearch01

移除网络: docker network rm infini_app_net

移除本地持久化数据 (如果不再需要):

bash rm -rf ~/infini_manual_setup/console rm -rf ~/infini_manual_setup/easysearch 

总结

通过 docker run 命令并仔细配置卷挂载，我们成功地为 INFINI Console 和 Easysearch 构建了一个具有持久化能力的本地容器环境，有效解决了重启后配置丢失的问题。虽然手动操作参数较多，但它能让你更清晰地理解 Docker 的核心机制。

在后续的文章中，我们将探讨如何使用 Docker Compose 来简化这一过程。

关于 INFINI Console

![](https://infinilabs.cn/img/blog ... 2x.png)

INFINI Console 是一款开源的非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管，企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。INFINI Console 还可以对集群内的索引及数据进行操作管理，可以配置灵活的告警规则，可以指定统一的安全策略，可以查看各个维度的日志和审计信息，真正实现企业级的搜索服务平台化建设和运营。

官网文档：<https://docs.infinilabs.com/console/main/>;
开源地址：<https://github.com/infinilabs/console>;

作者：罗厚付，极限科技（INFINI Labs）云上产品设计与研发负责人，拥有多年安全风控及大数据系统架构经验，主导过多个核心产品的设计与落地，日常负责运维超大规模 ES 集群（800+节点/1PB+数据）。
原文：https://infinilabs.cn/blog/202 ... cker/

Easysearch 索引备份之 Clone API

INFINI Labs 小助手发表了文章 • 0 个评论 • 4591 次浏览 • 2025-06-17 19:00 • 来自相关话题

在日常运维 Easysearch 的过程中，备份数据是一项重要工作。为了确保数据安全和业务连续性，我们可能需要了解并掌握多种备份索引的方法，以便应对不同的场景。我们先梳理下常用的备份方法有哪些。

Snapshot

Easysearch 的 Snapshot（快照） 是一种官方支持的集群数据备份与恢复机制，通过将索引数据、集群状态（如设置、模板）和分片分配信息保存到外部存储仓库（如本地文件系统、AWS S3、华为云 OBS 等）实现全量或增量备份。其核心原理是复制索引的 Lucene 分片文件，并利用段文件（Segment）的不可变性实现增量存储优化。

快照的优点包括：

高效性：增量备份仅存储新增或修改的段文件，显著节省存储空间和网络传输成本；
可靠性：支持跨集群恢复和灾难性故障修复，避免直接拷贝数据目录导致的数据不一致风险；
灵活性：可指定备份特定索引，并支持版本兼容性恢复（需遵循版本匹配规则）；
自动化：通过策略（Snapshot Policy）实现定时备份管理。

缺点则包括：
时效性限制：无法实现实时备份，是一种 PIT (Point in Time) 备份；
需预先配置：需预先注册仓库并确保存储系统可用性；
恢复约束：恢复时需关闭或删除目标索引，或恢复时修改索引名称；
依赖主分片状态：若主分片不可用（如节点故障），快照任务会失败。

总体而言，Snapshot 是生产环境首选的备份方案，尤其适合大规模数据归档和跨环境迁移，但需权衡备份频率与存储成本。详情可以参考[文档](https://infinilabs.cn/blog/202 ... ackup/)。

Reindex

Easysearch 的 Reindex 是一种通过 API 将数据从一个索引复制到另一个索引的备份方法，适用于同集群或跨集群的数据迁移与重建。其核心操作是使用 POST _reindex 命令将源索引的文档批量读取并写入目标索引。备份时需确保目标索引的 Mapping 与源索引兼容（字段类型一致），并通过 size 参数控制批量处理量（如 "size": 2000）以优化性能。对于跨集群备份，需在目标集群配置文件中添加源集群 IP 白名单（reindex.remote.whitelist）并提供认证信息，详情可以参考[文档](https://infinilabs.cn/blog/202 ... emote/)。

优点：
灵活性：支持通过 query 参数筛选特定数据备份（如仅迁移某字段值符合条件的数据）；
无缝整合：可在目标索引中修改索引结构（如分片数、字段类型）；
并发及限流：支持设置并发度和限流阈值，适应不同的场景；
操作便捷：无需额外存储配置，适合临时备份或小规模迁移。

缺点：
资源消耗大：reindex 本质是数据写入，要占用 CPU、内存和磁盘 IO，可能影响集群性能；
网络依赖：跨集群备份依赖网络带宽，高延迟或带宽不足会显著拖慢速度；
中断风险：reindex 一旦中途报错，无法继续重试，只能从头再来；
时效性局限：备份完成后新增数据需手动触发二次迁移，无法实现实时同步。

建议在低峰期执行 Reindex，并优先采用快照（Snapshot）进行生产环境长期备份，Reindex 更适合索引结构调整或小规模数据迁移场景。

工具备份

还有些工具支持将 Easyearch 的索引数据备份成一个文件，比如 elasticsearch-dump、Logstash 等。数据量较大的情况下，这些工具可能会有效率问题，一般在特定场景下有用，在此不展开介绍。

Clone API

Easysearch 的 Clone API 并不是传统意义上的备份工具，其核心设计目标是通过复制索引的底层段文件（Segment）快速生成一个与原索引数据一致的新索引，包括源索引是 Mapping 和 Setting 也一起复制。

具体操作步骤如下：
设置源索引为只读状态

bash PUT /.infini_metrics-000004/_settings { "settings": { "index.blocks.write": true } } 

![](https://infinilabs.cn/img/blog ... /1.png)
执行 Clone 操作

bash POST .infini_metrics-000004/_clone/backup_infini_metrics-000004 

![](https://infinilabs.cn/img/blog ... /2.png)
设置源索引和新索引为可读写状态

复制是新索引也会是只可读状态，大家根据需要选择是否都改成可读写状态。

bash PUT /.infini_metrics-000004,backup_infini_metrics-000004/_settings { "settings": { "index.blocks.write": null } } 

![](https://infinilabs.cn/img/blog ... /3.png)

优点：
- 极速复制：直接复用底层段文件，无需重写数据，适用于大数据量快速复制。
- 保留定义: 直接使用源索引的 Setting 和 Mapping。
- 存储优化：可调整目标索引的副本数，节省资源。
 
 缺点：
- 业务影响：克隆前需修改源索引为只可读，导致写入中断，影响服务可用性。
- 不够灵活：沿用源索引 Setting 和 Mapping 无法修改（副本数可修改）。
- 扩展性不足：不能跨集群，目标索引只能在本集群。
 
 Clone API 有自己鲜明的特点，对比 Snapshot，它不用恢复过程，目标索引直接在集群中了。对比 Reindex，它无需重写数据和先创建索引，更加高效。在特定场景下非常有用，也可以搭配其他备份方法一起使用。
 
 关于 Easysearch
 
 ![](https://infinilabs.cn/img/blog ... er.png)
 
 INFINI Easysearch 是一个分布式的搜索型数据库，实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch，同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
 
 官网文档：<https://docs.infinilabs.com/easysearch>;
 
 作者：杨帆，极限科技（INFINI Labs）高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主，拥有十余年金融行业服务工作经验，熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作，服务国内私有化部署的客户。
 原文：https://infinilabs.cn/blog/202 ... -api/

Easysearch 迁移数据之 Reindex From Remote

INFINI Labs 小助手发表了文章 • 0 个评论 • 4725 次浏览 • 2025-06-12 15:24 • 来自相关话题

在之前的博客《[从 Elasticsearch 迁移到 Easysearch 指引](https://infinilabs.cn/blog/202 ... earch/)》中介绍过如何把索引从 Elasticsearch 迁移到 Easysearch。有时候想临时从 Elasticsearch 迁移点儿数据做测试，数据量不大，也可尝试使用 Reindex From Remote 的方法。

测试环境介绍

本次主要测试从远程集群索引数据，reindex 还有很多其他使用方式，详情请参考[官方文档](https://docs.infinilabs.com/ea ... -data/)。

[Easysearch](https://infinilabs.cn/products/easysearch/) 版本：1.10.0，监听 localhost:9200
Elasticsearch 版本：6.8.23，监听 localhost:9201
[INFINI Console](https://infinilabs.cn/products/console/) 版本：1.25.1（运行 reindex 命令用）

Reindex API

Reindex 可以从本地或远程集群将源索引数据写入本地目标索引。使用简单，有以下注意点：
源索引启用 _source ，这个默认都是启用的
在调用 _reindex 之前，应该先创建、配置目标索引
如果源索引在远程集群，必须在 easysearch.yml 中配置 reindex.remote.whitelist 设置
使用 POST 调用

测试过程

我们先不设置白名单，直接从远程集群 reindex 看看会怎样。
![](https://infinilabs.cn/img/blog ... /1.png)

报错提示 localhost:9201 不在 reindex.remote.whitelist 中。

正常操作步骤
1. 编辑 Easysearch 配置文件 easysearch.yml，添加白名单，重启生效。
 
 plain reindex.remote.whitelist: [localhost:9201] 
2. 建立目标索引，指定 setting 和 mapping
 
 reindex 不会复制源索引的 setting 和 mapping，需要提前创建目标索引，否则会使用默认设置。
3. 执行 reindex 命令
 
 ![](https://infinilabs.cn/img/blog ... /2.png)
 
 执行成功。需要注意的是，如果数据量比较大，reindex 命令会超时，这个没关系，任务会继续在后台执行。也可以在执行 reindex 的时候添加参数 wait_for_completion=false 不等待执行完成，直接返回任务 id。
 
 plain POST _reindex?wait_for_completion=false 
 
 ![](https://infinilabs.cn/img/blog ... /3.png)
 
 针对有认证的集群，reindex 可以指定以下选项：
 
 ![](https://infinilabs.cn/img/blog ... /4.png)
 
 总结
 
 针对临时数据量不大的场景可尝试使用 reindex 迁移数据。如果数据量大了，reindex 迁移速度不是很高效，而且如果中途出现错误迁移中断了，需要重新 reindex 不方便，建议使用 [INFINI Console 进行数据迁移](https://docs.infinilabs.com/co ... ation/)。
 
 关于 Easysearch
 
 ![](https://infinilabs.cn/img/blog ... er.png)
 
 INFINI Easysearch 是一个分布式的搜索型数据库，实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch，同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
 
 官网文档：<https://docs.infinilabs.com/easysearch>;
 
 作者：杨帆，极限科技（INFINI Labs）高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主，拥有十余年金融行业服务工作经验，熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作，服务国内私有化部署的客户。
 原文：https://infinilabs.cn/blog/202 ... mote/

Easysearch 时序数据的基于时间范围的合并策略

INFINI Labs 小助手发表了文章 • 0 个评论 • 4688 次浏览 • 2025-05-07 16:44 • 来自相关话题

如果你正在使用 [Easysearch](https://docs.infinilabs.com/easysearch/main/) 处理日志、监控指标、事件流或其他任何具有时间顺序的数据，那么你一定知道索引的性能和效率至关重要。Easysearch 底层的 Lucene Segment 合并是保持搜索和索引性能的关键后台任务。然而，你是否意识到，默认的合并策略可能并不是处理时序数据的最佳选择？

![](https://infinilabs.cn/img/blog ... er.png)

今天，我们就来介绍 Easysearch 1.12.1 版本起引入的一个重要优化：基于时间范围的合并策略 (TimeRangeMergePolicy) ，它专门为优化时序数据的 Segment 合并而生。

时序数据的合并挑战：默认策略的局限性

Easysearch 默认使用的合并策略（如 TieredMergePolicy）非常智能，它会根据 Segment 的大小、文档删除比例等因素来决定合并哪些 Segment，以平衡查询性能和资源使用。

但在时序数据场景下，这种通用策略可能会遇到一些问题：

冷热数据混合： 想象一下，几个月前的旧日志数据（冷数据）可能因为大小合适而被选中，与最近几小时内产生的新数据（热数据）进行合并。这会带来不必要的 I/O 和 CPU 开销，因为冷数据通常访问很少，合并它们对查询性能的提升有限，反而消耗了宝贵的资源。
查询性能影响： 合并可能产生覆盖时间跨度非常大的 Segment。当你执行按时间范围过滤的查询时（这在时序场景中非常常见），查询可能需要扫描这些巨大的 Segment，即使其中大部分数据都不在你的目标时间范围内，从而降低查询效率。

解决方案：TimeRangeMergePolicy 登场！

为了解决上述痛点，Easysearch 引入了 TimeRangeMergePolicy。顾名思义，这种策略在做合并决策时，将时间维度纳入了核心考量。

它的核心思想很简单，但非常有效：
- 时间优先： 倾向于合并那些时间上相邻或接近的 Segment。比如，属于同一天或同一小时的 Segment 更有可能被一起合并。
- 保留时间分区： 尽量避免将时间跨度极大的 Segment 合并在一起。这有助于保持数据的“时间局部性”，使得按时间范围查询时能更快地排除不相关的 Segment。
- 优先合并新数据： 通常，新产生的数据（热数据）更新和删除操作更频繁。优先合并包含较新数据的 Segment，有助于更快地回收被删除文档占用的空间，并优化对最新数据的查询性能。
  
  如何为你的时序索引启用 TimeRangeMergePolicy？
  
  启用这个功能非常简单，只需要两步：
确认日期字段： 首先，确保你的索引 Mapping 中有一个能准确代表数据时间的字段，通常是日期（date）或时间戳（date_nanos）类型，例如 @timestamp、event_time 等。这个字段的值应该反映数据产生的实际时间。
更新索引设置： 使用 Index Settings API，为你的索引指定 index.merge.policy.time_range_field 参数，并将其值设置为你的时间字段名。

示例：

假设你的时间字段是 timestamp，索引名称是 my-timeseries-index，你可以执行以下请求：

auto PUT /my-timeseries-index/_settings { "index": { "merge.policy.time_range_field": "timestamp" } } 

搞定！设置之后，my-timeseries-index 后续的 Segment 合并就会自动采用 TimeRangeMergePolicy 了。

专家提示： 如果你想让所有新创建的时序索引默认就使用这个策略，可以将这个设置添加到你的索引模板 (Index Template) 中。

TimeRangeMergePolicy 的优势

启用时间范围合并策略能带来哪些好处呢？
- 降低合并开销： 显著减少冷热数据的无效合并，节省 I/O 和 CPU 资源。
- 提高资源效率： 更智能的合并有助于更快地回收已删除文档的空间，并可能降低整体计算资源的使用。
- 优化查询性能： 保持 Segment 的时间局部性，对于按时间范围过滤的查询（例如，“查询过去一小时的日志”）可能会有明显的性能提升。
- 对时序数据更友好： 该策略的设计初衷就是为了更好地服务于日志、指标这类严格按时间增长的数据模式。
 
 注意事项
 
 在使用 TimeRangeMergePolicy 时，有几点需要注意：
- 时间字段是关键： 策略的效果高度依赖于你所指定的 time_range_field。如果该字段不存在，或者字段中的时间值混乱、不准确，策略可能无法发挥预期效果，甚至适得其反。
- 并非万能丹： 这个策略最适合具有明确时间序列特征的数据。对于非时序数据（例如，商品信息、用户信息索引），默认的 TieredMergePolicy 可能仍然是更好的选择。
- 版本要求： 请确保你的 Easysearch 集群版本至少为 1.12.1。
 
 总结
 
 对于处理大量时序数据的 Easysearch 用户来说，TimeRangeMergePolicy 是一个非常有价值的优化工具。通过感知数据的时间属性，它可以让 Segment 合并操作更加智能和高效，从而降低资源消耗、提升查询性能。如果你的索引符合时序数据的特征，并且正在运行 Easysearch 1.12.1 或更高版本，不妨尝试启用这个策略，看看它能否为你的集群带来改善！
 
 关于 Easysearch
 
 INFINI Easysearch 是一个分布式的搜索型数据库，实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch，同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
 
 官网文档：<https://docs.infinilabs.com/easysearch>;
 
 作者：张磊，极限科技（INFINI Labs）搜索引擎研发负责人，对 Elasticsearch 和 Lucene 源码比较熟悉，目前主要负责公司的 Easysearch 产品的研发以及客户服务工作。
 原文：https://infinilabs.cn/blog/202 ... arch/

通知设置 新通知

Easysearch

概述

核心性能提升

1. 索引性能更加稳定

Indexing Throughput (docs/s) - Higher is Better

Flush 性能提升 40%

Cumulative Refresh Time (min) - Lower is Better

Cumulative Flush Time (min) - Lower is Better

查询性能提升

1. 基础查询延迟降低

Query Latency Improvements (ms) - Lower is Better

升序排序 + After 分页（asc_sort_with_after_timestamp）

Sort Query Latency (ms) - Lower is Better

3. 聚合查询性能提升

4. Scroll 查询性能改进

Scroll Query Latency (ms) - Lower is Better

存储优化

Merge 策略调整

技术架构改进

1. 段数据结构优化

2. 查询缓存优化

3. I/O 优化

适用场景

1. 大规模日志与事件流处理

2. 时序数据存储与分析

3. 全文搜索应用

4. 实时分析与 Dashboard

5. 大数据量遍历与导出

升级建议

兼容性

性能测试环境

总结

引言

Easysearch 概述

诞生背景：为什么要有 Easysearch？

核心特性

对比优势

快速开始：5 分钟体验 Easysearch

1. 使用 Docker 启动

直接运行镜像使用随机密码（数据及配置未持久化）

2. 验证集群状态

3. 索引与搜索示例

写入文档

搜索文档

4. 使用 Easysearch UI

结语

冷热架构

热节点添加下面的行

冷节点添加下面的行

生命周期与冷热架构

创建策略

创建索引模板

创建索引

关于 Easysearch

用户最关心的八大问题

结语：Easysearch，国产化搜索的新选择

背景知识：词库的作用

IK 的自定义词库加载方式

字段级别词库的加载

对默认词库的新增支持

效率测试

测试方案 1：单条测试

debug 日志

测试方案 2:持续写入测试

ik_max_word索引

自定义词库索引

!/usr/bin/env python3

-- coding: utf-8 --

配置日志

设置认证信息

设置请求会话

处理HTTPS和SSL证书验证

设置SSL适配器以处理连接问题

配置重试策略

设置更宽松的SSL上下文

创建索引映射

检查索引是否存在

如果文件不存在，返回扩展的示例内容

清理文本，移除多余的空白字符

通知设置新通知

`start-local`：您的 INFINI Console 本地环境瑞士军刀

如何获取和使用 `start-local`

`start-local` 命令和选项概览