高峰只对攀登它而不是仰望它的人来说才有真正意义。

logstash中收集日志的时间跟logstash自己的时间怎么调成一致的?调成一致的以后es、kibana还用在调吗?

Logstasha505100745 回复了问题 • 3 人关注 • 3 个回复 • 2858 次浏览 • 2018-06-07 14:51 • 来自相关话题

logstash5.X 时差8小时问题

LogstashDm 发表了文章 • 6 个评论 • 4837 次浏览 • 2018-06-01 14:42 • 来自相关话题

在filter中处理
 ruby {   
   code => "event.set('timestamp', event.get('@timestamp').time.localtime + 8*60*60)"   
 }  
 ruby {  
   code => "event.set('@timestamp',event.get('timestamp'))"  
 }  
 mutate {  
   remove_field => ["timestamp"]  
 } 
在filter中处理
 ruby {   
   code => "event.set('timestamp', event.get('@timestamp').time.localtime + 8*60*60)"   
 }  
 ruby {  
   code => "event.set('@timestamp',event.get('timestamp'))"  
 }  
 mutate {  
   remove_field => ["timestamp"]  
 } 

filebeat无法向Elasticsearch 发送日志数据

Beatsccsy 回复了问题 • 4 人关注 • 3 个回复 • 3291 次浏览 • 2018-11-16 18:15 • 来自相关话题

script abs()函数报编译错误

Elasticsearchstrglee 回复了问题 • 2 人关注 • 1 个回复 • 1907 次浏览 • 2018-06-01 10:34 • 来自相关话题

请教:es2.3.4升级es5.5.3出现的问题

Elasticsearchkennywu76 回复了问题 • 4 人关注 • 5 个回复 • 2480 次浏览 • 2018-06-05 16:09 • 来自相关话题

Elastic日报 第289期 (2018-06-01)

Elasticsearchlaoyang360 发表了文章 • 0 个评论 • 1196 次浏览 • 2018-06-01 06:33 • 来自相关话题

1、Elasticsearch snapshot 备份的使用方法
https://elasticsearch.cn/article/648
2、ElasticSearch + Canal 开发千万级的实时搜索系统
http://t.cn/R8vjBwD
3、【线下活动】2018-06-30 南京Elastic Meetup日程安排
https://elasticsearch.cn/article/647

编辑:铭毅天下
归档:https://elasticsearch.cn/article/649
订阅:https://tinyletter.com/elastic-daily
 

Elasticsearch snapshot 备份的使用方法

Elasticsearchrockybean 发表了文章 • 1 个评论 • 10498 次浏览 • 2018-05-31 23:23 • 来自相关话题

常见的数据库都会提供备份的机制,以解决在数据库无法使用的情况下,可以开启新的实例,然后通过备份来恢复数据减少损失。虽然 Elasticsearch 有良好的容灾性,但由于以下原因,其依然需要备份机制。

  1. 数据灾备。在整个集群无法正常工作时,可以及时从备份中恢复数据。
  2. 归档数据。随着数据的积累,比如日志类的数据,集群的存储压力会越来越大,不管是内存还是磁盘都要承担数据增多带来的压力,此时我们往往会选择只保留最近一段时间的数据,比如1个月,而将1个月之前的数据删除。如果你不想删除这些数据,以备后续有查看的需求,那么你就可以将这些数据以备份的形式归档。
  3. 迁移数据。当你需要将数据从一个集群迁移到另一个集群时,也可以用备份的方式来实现。

    Elasticsearch 做备份有两种方式,一是将数据导出成文本文件,比如通过 [elasticdump](https://github.com/taskrabbit/elasticsearch-dump)、[esm](https://github.com/medcl/esm) 等工具将存储在 Elasticsearch 中的数据导出到文件中。二是以备份 elasticsearch data 目录中文件的形式来做快照,也就是 Elasticsearch 中 snapshot 接口实现的功能。第一种方式相对简单,在数据量小的时候比较实用,当应对大数据量场景效率就大打折扣。我们今天就着重讲解下第二种备份的方式,即 snapshot api 的使用。

    备份要解决备份到哪里、如何备份、何时备份和如何恢复的问题,那么我们接下来一个个解决。



    1. 备份到哪里



    在 Elasticsearch 中通过 repository 定义备份存储类型和位置,存储类型有共享文件系统、AWS 的 S3存储、HDFS、微软 Azure的存储、Google Cloud 的存储等,当然你也可以自己写代码实现国内阿里云的存储。我们这里以最简单的共享文件系统为例,你也可以在本地做实验。

    首先,你要在 elasticsearch.yml 的配置文件中注明可以用作备份路径 path.repo ,如下所示:

    yaml<br /> path.repo: ["/mount/backups", "/mount/longterm_backups"]<br />

    配置好后,就可以使用 snapshot api 来创建一个 repository 了,如下我们创建一个名为 my_backup 的 repository。

    json<br /> PUT /_snapshot/my_backup<br /> {<br /> "type": "fs",<br /> "settings": {<br /> "location": "/mount/backups/my_backup"<br /> }<br /> }<br />

    之后我们就可以在这个 repository 中来备份数据了。

    2. 如何备份


    有了 repostiroy 后,我们就可以做备份了,也叫快照,也就是记录当下数据的状态。如下所示我们创建一个名为 snapshot_1 的快照。

    json<br /> PUT /_snapshot/my_backup/snapshot_1?wait_for_completion=true<br />

    wait_for_completion 为 true 是指该 api 在备份执行完毕后再返回结果,否则默认是异步执行的,我们这里为了立刻看到效果,所以设置了该参数,线上执行时不用设置该参数,让其在后台异步执行即可。

    执行成功后会返回如下结果,用于说明备份的情况:

    json<br /> {<br /> "snapshots": [<br /> {<br /> "snapshot": "snapshot_1",<br /> "uuid": "52Lr4aFuQYGjMEv5ZFeFEg",<br /> "version_id": 6030099,<br /> "version": "6.3.0",<br /> "indices": [<br /> ".monitoring-kibana-6-2018.05.30",<br /> ".monitoring-es-6-2018.05.28",<br /> ".watcher-history-7-2018.05.30",<br /> ".monitoring-beats-6-2018.05.29",<br /> "metricbeat-6.2.4-2018.05.28",<br /> ".monitoring-alerts-6",<br /> "metricbeat-6.2.4-2018.05.30"<br /> ],<br /> "include_global_state": true,<br /> "state": "SUCCESS",<br /> "start_time": "2018-05-31T12:45:57.492Z",<br /> "start_time_in_millis": 1527770757492,<br /> "end_time": "2018-05-31T12:46:15.214Z",<br /> "end_time_in_millis": 1527770775214,<br /> "duration_in_millis": 17722,<br /> "failures": [],<br /> "shards": {<br /> "total": 28,<br /> "failed": 0,<br /> "successful": 28<br /> }<br /> }<br /> ]<br /> }<br />

    返回结果的参数意义都是比较直观的,比如 indices 指明此次备份涉及到的索引名称,由于我们没有指定需要备份的索引,这里备份了所有索引;state 指明状态;duration_in_millis 指明备份任务执行时长等。

    我们可以通过 GET _snapshot/my_backup/snapshot_1获取 snapshot_1 的执行状态。

    此时如果去 /mount/backups/my_backup 查看,会发现里面多了很多文件,这些文件其实都是基于 elasticsearch data 目录中的文件生成的压缩存储的备份文件。大家可以通过 du -sh . 命令看一下该目录的大小,方便后续做对比。

    3. 何时备份


    通过上面的步骤我们成功创建了一个备份,但随着数据的新增,我们需要对新增的数据也做备份,那么我们如何做呢?方法很简单,只要再创建一个快照 snapshot_2 就可以了。

    json<br /> PUT /_snapshot/my_backup/snapshot_2?wait_for_completion=true<br />

    当执行完毕后,你会发现 /mount/backups/my_backup 体积变大了。这说明新数据备份进来了。要说明的一点是,当你在同一个 repository 中做多次 snapshot 时,elasticsearch 会检查要备份的数据 segment 文件是否有变化,如果没有变化则不处理,否则只会把发生变化的 segment file 备份下来。这其实就实现了增量备份。

    elasticsearch 的资深用户应该了解 force merge 功能,即可以强行将一个索引的 segment file 合并成指定数目,这里要注意的是如果你主动调用 force merge api,那么 snapshot 功能的增量备份功能就失效了,因为 api 调用完毕后,数据目录中的所有 segment file 都发生变化了。

    另一个就是备份时机的问题,虽然 snapshot 不会占用太多的 cpu、磁盘和网络资源,但还是建议大家尽量在闲时做备份。

    4. 如何恢复


    所谓“养兵千日,用兵一时”,我们该演练下备份的成果,将其恢复出来。通过调用如下 api 即可快速实现恢复功能。

    json<br /> POST /_snapshot/my_backup/snapshot_1/_restore?wait_for_completion=true<br /> {<br /> "indices": "index_1",<br /> "rename_replacement": "restored_index_1"<br /> }<br />

    通过上面的 api,我们可以将 index_1 索引恢复到 restored_index_1 中。这个恢复过程完全是基于文件的,因此效率会比较高。

    虽然我们这里演示的是在同一个集群做备份与恢复,你也可以在另一个集群上连接该 repository 做恢复。我们这里就不做说明了。

    5. 其他


    由于 Elasticsearch 版本更新比较快,因此大家在做备份与恢复的时候,要注意版本问题,同一个大版本之间的备份与恢复是没有问题的,比如都是 5.1 和 5.6 之间可以互相备份恢复。但你不能把一个高版本的备份在低版本恢复,比如将 6.x 的备份在 5.x 中恢复。而低版本备份在高版本恢复有一定要求:

    1) 5.x 可以在 6.x 恢复

    2) 2.x 可以在 5.x 恢复

    3) 1.x 可以在 2.x 恢复

    其他跨大版本的升级都是不可用的,比如1.x 的无法在 5.x 恢复。这里主要原因还是 Lucene 版本问题导致的,每一次 ES 的大版本升级都会伴随 Lucene 的大版本,而 Lucene 的版本是尽量保证向前兼容,即新版可以读旧版的文件,但版本跨越太多,无法实现兼容的情况也在所难免了。

    6. 继续学习


    本文只是简单对 snapshot 功能做了一个演示,希望这足够引起你的兴趣。如果你想进一步深入的了解该功能,比如备份的时候如何指定部分索引、如何查询备份和还原的进度、如何跨集群恢复数据、如何备份到 HDFS 等,可以详细阅读官方手册[https://www.elastic.co/guide/e ... .html](https://www.elastic.co/guide/e ... s.html),如果在使用的过程中遇到了问题,欢迎留言讨论。

三机ES集群,需要每台机都安装ik中文分词吗?

Elasticsearchvearne 回复了问题 • 3 人关注 • 2 个回复 • 4332 次浏览 • 2018-06-01 10:16 • 来自相关话题

elasticseach-kopf插件

ElasticsearchDm 回复了问题 • 3 人关注 • 2 个回复 • 3057 次浏览 • 2018-06-01 10:13 • 来自相关话题

es的数据写入,主分片和副本分片数据一致性问题

Elasticsearchforestlee 回复了问题 • 3 人关注 • 2 个回复 • 12638 次浏览 • 2023-10-27 15:00 • 来自相关话题

设置cluster.routing.allocation.enable为none,禁用分片分配的问题

Elasticsearchhapjin 回复了问题 • 3 人关注 • 2 个回复 • 14530 次浏览 • 2019-08-06 19:45 • 来自相关话题

通过spark往es中持续写数据

回复

Elasticsearchyqbboy 发起了问题 • 1 人关注 • 0 个回复 • 2299 次浏览 • 2018-05-31 15:55 • 来自相关话题

相同的查询条件,多次查询排序结果不一致

Elasticsearchhufuman 回复了问题 • 5 人关注 • 2 个回复 • 5423 次浏览 • 2018-05-31 21:21 • 来自相关话题

【线下活动】2018-06-30 南京Elastic Meetup日程安排

活动swordsmanli 发表了文章 • 22 个评论 • 6815 次浏览 • 2018-05-31 15:33 • 来自相关话题

活动地址:
[http://meetup.elasticsearch.cn/2018/nanjing.html](http://meetup.elasticsearch.cn/2018/nanjing.html)

Elastic Meetup 南京


主办方


Elastic中文社区、趋势科技

meetup_logo.jpg



协办方


IT 大咖说、阿里云、开源中国

| | | |
| --- | --- | --- |
|

itdks.jpeg
|
aliyun.jpg
|
osc.jpg
|


时间地点


  • 活动时间:2018年6月30日 13:00 - 18:00 

  • 活动地点:雨花区软件大道48号苏豪国际广场B座 趋势科技中国研发中心(靠花神庙地铁站)

     

     报名地址


    [http://elasticsearch.mikecrm.com/fUqiv0T](http://elasticsearch.mikecrm.com/fUqiv0T)

    qr.php_.png



       名额有限,速速报名!


    直播地址



    IMG_2154.JPG




     

    主题


    分享一:Elastic 探秘之遗落的珍珠


    标签:elastic stack
    讲师简介:

    medcl.jpg


     

    曾勇(Medcl) Elastic 中国首席布道师
    Elasticsearch爱好者,2015年加入Elastic,Elastic 中文社区的发起人,Elastic在中国的首位员工。

    主题简介:
    Elastic Stack 功能越来越丰富了,有很多功能可能你只听说过名字,有很多功能也许没有机会尝试过,其实你可能错过了很多宝贝,所以让我们来探究探究,本次分享主要介绍 Elastic Stack 技术栈里面,一些可能看起来不太起眼但却非常有意思的功能,定义为非干货,尽量轻拍,不过相信对于刚接触 Elastic 的同学来说,也会有所收获。
     

    分享二:基于ELK的大数据分析平台实践


    标签:运维、DevOps
    讲师简介:

    tuhaibo.jpg


     

    涂海波 南京云利来有限公司
    曾在亚信联创电信事业部从事计费产品工作多年,2年前加入南京云利来。

    主题简介:
    主题围绕Elasticsearch在集群搭建和运维过程中的使用经验,分享工作期间主要遇到的问题和解决思路,希望能够帮助大家在elasticsearch使用过程中少走一些弯路
     

    分享三:ElasticLog with ES in CloudEdge


    标签:Ops、AWS、Log

    讲师简介:

    bruce_zhao.jpg



     
    赵伟,趋势科技CloudEdge Team
    负责大数据研发,个人技术兴趣广泛,擅长系统设计与服务调优,目前专注于大数据领域。
    主题简介:
    作为趋势科技下一代应用安全网关产品,CloudEdge的用户规模不断增长。面对每日数亿级数据,如何实现快速处理与查询?本次演讲,主要分享CloudEdge的大数据架构,介绍如何在AWS云上构建大数据系统,如何利用Elasticsearch实现热数据查询,以及在Elasticsearch方面的诸多实践经验
     

    分享四:华泰证券Elasticsearch应用实践


    标签:金融IT、大数据、DevOps、日志

    讲师简介:

    WechatIMG148.jpeg



    李文强,华泰证券数据平台架构师
    负责Hadoop平台和Elasticsearch集群的管理、架构和部分项目管理,目前正积极研究基于k8s的人工智能平台落地方案。

    主题简介:
    经过几年的发展,Elasticsearch已经在华泰证券内部生根发芽,已经有不少业务都使用了Elasticsearch,其中一个非常重要的应用是日志搜索和分析系统,该系统统一收集和分析各个系统的日志,既提升运维效率,又提高运营质量。在这些实践中,我们也不断地对Elasticsearch进行调优,使其能够长期稳定运行,保障业务稳定。
     
     

    分享五:es在苏宁的实践


    标签:实践,大数据,平台化

    讲师简介:

    韩君宝.png



     
    韩宝君,苏宁大数据平台  ES平台组负责人
    2015年从事大数据研究工作,目前负责Elasticsearch的源码研究工作和定制化开发,对苏宁使用Elasticsearch的业务提供技术支持和解决方案。

    主题简介:
    本次分享大纲如下:

    1. 苏宁ES平台总体介绍,典型使用场景和规模;
    2. ES平台化之路-演进路线以及过程中我们的思考;
    3. 实战经验:遇到的问题及对应的解决方案;
       

ES 如何给索引插入字段,并且更新现有数据

Elasticsearchlaoyang360 回复了问题 • 3 人关注 • 2 个回复 • 9737 次浏览 • 2018-06-01 00:16 • 来自相关话题