行动是治愈恐惧的良药,而犹豫、拖延将不断滋养恐惧。

高吞吐ELK实践

2015-10-25 by 吴晓刚

吴晓刚,携程旅行网系统研发总监,负责网站运维监控与自动化工具的研发。15年通讯与IT行业从业经历, 曾主要供职于Strategic Systems Solutions、eBay、Morgan Stanley等跨国企业,在软件研发与集成, 大规模分布式系统技术支持方面有比较丰富的经验。目前感兴趣的研究方向是如何将大数据分析技术有效用于网站监控。
 大型网站遇到性能瓶颈或发生故障时,分析日志往往是发现问题根源最有效的手段。 传统的日志分析手段不外乎以下几类:
1. 运维人员用脚本grep,分析再汇总
2. 通过流式计算引擎,storm/spark实时产生汇总 数据,供监控分析
3. 将数据堆放到HDFS,之后通过map/reduce定期做批量分析 基于ELK的解决方案则提供了另外一种思路,利用搜索引擎将数据索引起来,支持实时的多维度组合查询和聚合分析。 这非常契合问题排查过程,即先通过上层统计数据发现数据异常之方向,再通过不断细化过滤条件缩小范围, 实现对日志的下钻式分析。 ELK上手成本虽低,扩展到海量数据规模场景却很不易。很多用户面临诸如集群稳定性差,写入吞吐量不理想, 查询速度慢,安全把控头痛,不知道如何监控等问题。 
携程旅行网从2013年开始基于ELK打造实时日志分析平台, 不到2年时间,集群结点从5个增长到30多个的,日处理数据从亿级到百亿级,集群从不稳定到连续200多天没出任何故障 这样一个飞跃。 本议题将结合携程elk用例,分享集群的架构、监控以及优化方面的经验心得。