Day2: 利用nested object缩减mapping大小

Elasticsearch 中有些高级特性,可能不太常用,但是在恰当场景下,又非常有效果。今天,我们来说说 nested object。

我们都知道,Elasticsearch 宣传中是 schemaless 的。但实际使用中,并不是完全的随意。比如过多的 kv 切割,会导致 mapping 大小暴涨,对集群稳定性是个不小的挑战。

以 urlparams 为例,下面这段 urlparams 直接通过 logstash-filter-kv 切割得到的结果,需要在 mapping 中占用 4 个字段的定义。
"urlparams" : {
"uid" : "1234567890",
"action" : "payload",
"t" : "1449053032000",
"pageid" : "v6"
}
如果哪个开发一时想不开(我真的碰到过),把 urlparams 写成 uid=123456789&action=payload&1449053032000=t&pageid=v6,那基本上整个 ES 集群就会被过于频繁的 mapping 更新搞挂了。

这时候,我们修改一下 mapping 定义:
{
"accesslog" : {
"properties" : {
"urlparams" : {
"type" : "nested",
"properties" : {
"key" : { "type" : "string", "index" : "not_analyzed", "doc_values" : true },
"value" : { "type" : "string", "index" : "not_analyzed", "doc_values" : true }
}
}
}
}
}
同时在 Logstash 的 filter 配置中添加一段:
if [urlargs] {
ruby {
init => "@kname = ['key','value']"
code => "event['urlparams'] = event['urlargs'].split('&').collect {|i| Hash[@kname.zip(i.split('='))]}"
remove_field => [ "urlargs","uri","request" ]
}
}
生成的 JSON 数据变成这个样子:
"urlargs": [
{ "key": "uid", "value": "1234567890" },
{ "key": "action", "value": "payload" },
{ "key": "1449053032000", "value": "t" },
{ "key": "pageid", "value": "v6" }
]
这样,再错乱的 urlparams,也不会发生 mapping 变更,导致集群故障了!

想了解更全面的 ELK Stack 知识和细节,欢迎购买我的《ELK Stack权威指南》,也欢迎加 QQ 群:315428175 哟。
继续阅读 »
Elasticsearch 中有些高级特性,可能不太常用,但是在恰当场景下,又非常有效果。今天,我们来说说 nested object。

我们都知道,Elasticsearch 宣传中是 schemaless 的。但实际使用中,并不是完全的随意。比如过多的 kv 切割,会导致 mapping 大小暴涨,对集群稳定性是个不小的挑战。

以 urlparams 为例,下面这段 urlparams 直接通过 logstash-filter-kv 切割得到的结果,需要在 mapping 中占用 4 个字段的定义。
"urlparams" : {
"uid" : "1234567890",
"action" : "payload",
"t" : "1449053032000",
"pageid" : "v6"
}
如果哪个开发一时想不开(我真的碰到过),把 urlparams 写成 uid=123456789&action=payload&1449053032000=t&pageid=v6,那基本上整个 ES 集群就会被过于频繁的 mapping 更新搞挂了。

这时候,我们修改一下 mapping 定义:
{
"accesslog" : {
"properties" : {
"urlparams" : {
"type" : "nested",
"properties" : {
"key" : { "type" : "string", "index" : "not_analyzed", "doc_values" : true },
"value" : { "type" : "string", "index" : "not_analyzed", "doc_values" : true }
}
}
}
}
}
同时在 Logstash 的 filter 配置中添加一段:
if [urlargs] {
ruby {
init => "@kname = ['key','value']"
code => "event['urlparams'] = event['urlargs'].split('&').collect {|i| Hash[@kname.zip(i.split('='))]}"
remove_field => [ "urlargs","uri","request" ]
}
}
生成的 JSON 数据变成这个样子:
"urlargs": [
{ "key": "uid", "value": "1234567890" },
{ "key": "action", "value": "payload" },
{ "key": "1449053032000", "value": "t" },
{ "key": "pageid", "value": "v6" }
]
这样,再错乱的 urlparams,也不会发生 mapping 变更,导致集群故障了!

想了解更全面的 ELK Stack 知识和细节,欢迎购买我的《ELK Stack权威指南》,也欢迎加 QQ 群:315428175 哟。 收起阅读 »

Day1: 怎样让Logstash每次都从头读文件?

Advent Calendar 是各大技术社区每年 12 月大多会举办的一个系列活动。原意是圣诞节前夕的小礼品,延伸为每天一篇技术小分享的意思。最常见的包括 Perl Advent、sysadmin advent、web advent、performance advent 等。个人从 2009 年开始每年都看,从2013 年开始偶尔会参加其他社区的 advent 写作。今年考虑自己在 ELK Stack 上专注较多,在历次技术大会和最终出版的《ELK Stack权威指南》之外,又有一些新的发现和收获,干脆尝试一把自己一个人的 advent,也算是对 ELK 小知识的一种查漏补缺。

今天是 12 月 1 日,第一天,开天辟地,让我们也从最简单而又容易被忽略的一个小技巧开始吧!

每个上手 ELK 的新用户,肯定都需要测试一下读取文件输出到终端这步。在 Logstash 中,也就是配置这样一段:
input {
file {
path => ["/data/test.log"]
}
}
output {
stdout {
codec => rubydebug
}
}
不过很多新人的测试随后就卡在第二步了:当你修改一下配置,准备添加一段 filter 配置再重复运行 logstash 命令时,发现终端一直停滞没有输出

这是因为:Logstash 会记录自己读取文件内容的偏移量到一个隐藏文件里,默认情况下,下次启动,他会从这个偏移量继续往后读,避免重复读取数据。

这个隐藏文件,叫做 $HOME/.sincedb_****。过去很多文档,在解释了这个原理后,都会告诉大家解决办法:每次重新运行 logstash 命令之前,删除掉家目录下的 sincedb 隐藏文件。

但是这种办法很笨,不是么?

今天告诉大家一个更方便的办法,改用下面这段 Logstash 配置:
input {
file {
path => ["/data/test.log"]
start_position => "beginning"
sincedb_path => "/dev/null"
}
}
output {
stdout {
codec => rubydebug
}
}
要点就在这行 sincedb_path => "/dev/null" 了!该参数用来指定 sincedb 文件名,但是如果我们设置为 /dev/null这个 Linux 系统上特殊的空洞文件,那么 logstash 每次重启进程的时候,尝试读取 sincedb 内容,都只会读到空白内容,也就会理解成之前没有过运行记录,自然就从初始位置开始读取了!

好了,第一天就是这样。更多内容,敬请期待。

想了解更全面的 ELK Stack 知识和细节,欢迎购买我的《ELK Stack权威指南》,也欢迎加 QQ 群:315428175 哟。
继续阅读 »
Advent Calendar 是各大技术社区每年 12 月大多会举办的一个系列活动。原意是圣诞节前夕的小礼品,延伸为每天一篇技术小分享的意思。最常见的包括 Perl Advent、sysadmin advent、web advent、performance advent 等。个人从 2009 年开始每年都看,从2013 年开始偶尔会参加其他社区的 advent 写作。今年考虑自己在 ELK Stack 上专注较多,在历次技术大会和最终出版的《ELK Stack权威指南》之外,又有一些新的发现和收获,干脆尝试一把自己一个人的 advent,也算是对 ELK 小知识的一种查漏补缺。

今天是 12 月 1 日,第一天,开天辟地,让我们也从最简单而又容易被忽略的一个小技巧开始吧!

每个上手 ELK 的新用户,肯定都需要测试一下读取文件输出到终端这步。在 Logstash 中,也就是配置这样一段:
input {
file {
path => ["/data/test.log"]
}
}
output {
stdout {
codec => rubydebug
}
}
不过很多新人的测试随后就卡在第二步了:当你修改一下配置,准备添加一段 filter 配置再重复运行 logstash 命令时,发现终端一直停滞没有输出

这是因为:Logstash 会记录自己读取文件内容的偏移量到一个隐藏文件里,默认情况下,下次启动,他会从这个偏移量继续往后读,避免重复读取数据。

这个隐藏文件,叫做 $HOME/.sincedb_****。过去很多文档,在解释了这个原理后,都会告诉大家解决办法:每次重新运行 logstash 命令之前,删除掉家目录下的 sincedb 隐藏文件。

但是这种办法很笨,不是么?

今天告诉大家一个更方便的办法,改用下面这段 Logstash 配置:
input {
file {
path => ["/data/test.log"]
start_position => "beginning"
sincedb_path => "/dev/null"
}
}
output {
stdout {
codec => rubydebug
}
}
要点就在这行 sincedb_path => "/dev/null" 了!该参数用来指定 sincedb 文件名,但是如果我们设置为 /dev/null这个 Linux 系统上特殊的空洞文件,那么 logstash 每次重启进程的时候,尝试读取 sincedb 内容,都只会读到空白内容,也就会理解成之前没有过运行记录,自然就从初始位置开始读取了!

好了,第一天就是这样。更多内容,敬请期待。

想了解更全面的 ELK Stack 知识和细节,欢迎购买我的《ELK Stack权威指南》,也欢迎加 QQ 群:315428175 哟。 收起阅读 »

ElasticSearch2.0安装 & 1.7.2升级-新手日志

才开始研究ElasticSearch不到两个月时间,准备把公司现在的基于hubble.net的搜索解决方案换成基于ElasticSearch的。本来用的1.7.2版本,刚进入到测试阶段,现在2.0发布了,就尝试直接升级到2.0吧。
 
我把在Windows平台上的ElasticSearch2.0安装,1.7.2升级的全过程的步骤、经验、教训记录下来,如文档(http://pan.baidu.com/s/1qWOTpz2)。
操作过程和记录的内容或许有很多地方不合理不恰当,和我一样的新手可以一起交流,请大神多给予指导。
继续阅读 »
才开始研究ElasticSearch不到两个月时间,准备把公司现在的基于hubble.net的搜索解决方案换成基于ElasticSearch的。本来用的1.7.2版本,刚进入到测试阶段,现在2.0发布了,就尝试直接升级到2.0吧。
 
我把在Windows平台上的ElasticSearch2.0安装,1.7.2升级的全过程的步骤、经验、教训记录下来,如文档(http://pan.baidu.com/s/1qWOTpz2)。
操作过程和记录的内容或许有很多地方不合理不恰当,和我一样的新手可以一起交流,请大神多给予指导。 收起阅读 »

11.22 ESCC#4成都站马上开始了

时间:

2015年11月22日 周日 下午1点开始

地点:

四川成都市高新区天府大道中段1366号天府软件园E3-1-11层   (感谢货车帮提供场地支持)

会议日程:

Snip20151118_26.png



请您提前到场,安排好时间,如因故不能参加,请提前发邮件告知: medcl*elastic.co ,谢谢合作.
继续阅读 »
时间:

2015年11月22日 周日 下午1点开始

地点:

四川成都市高新区天府大道中段1366号天府软件园E3-1-11层   (感谢货车帮提供场地支持)

会议日程:

Snip20151118_26.png



请您提前到场,安排好时间,如因故不能参加,请提前发邮件告知: medcl*elastic.co ,谢谢合作. 收起阅读 »

常用链接及资源索引

Elastic 社区: http://elasticsearch.cn 
 
社区活动:
 
Elastic 中国开发者大会:http://conf.elasticsearch.cn 
线下 Meetup: http://www.meetup.com/Elasticsearch-China-Users/ 
历史活动 PPT 下载:链接: https://pan.baidu.com/s/1hsnFNEW 密码: hfp1

Elastic 日报:
 
订阅:https://tinyletter.com/elastic-daily 
归档:https://elasticsearch.cn/explore/category-18

社区微信公众号

中文社区qrcode.png


交流QQ群:

Elastic中文社区1 (190605846) 
Elastic中文社区2(211682609) 
Elastic中文社区3(258143901)
Elastic中文社区4  (456336484)
Elastic中文社区5  (223764502)
ELKstack交流1群(315428175)

官方资源:

Elastic 官方网站:http://elastic.co
Elastic 用户大会: http://elasticon.com 
Elastic 源代码:http://github.com/elastic 
Elastic 案例大全: https://github.com/elastic/examples/ 
Elastic@Speakdeck: https://speakerdeck.com/elastic 
Elastic@Vimeo: https://vimeo.com/elasticsearch 
Elastic@Youtube: https://www.youtube.com/user/elasticsearch
Elastic@Facebook: http://www.facebook.com/elastic.co
Elastic@Twitter: https://www.twitter.com/elastic
Elastic@Linkedin: https://www.linkedin.com/company/elastic-co
Elastic@Xing: https://www.xing.com/companies/elastic.co
 

相关书籍

[官方] Elasticsearch 权威指南: https://www.elastic.co/guide/cn/index.html
ELKStack中文指南:  http://kibana.logstash.es/
Kibana 中文指南:http://chenryn.gitbooks.io/kibana-guide-cn/
Exploring elasticsearch: http://exploringelasticsearch.com/

其他资源

Elasticsearch Stackshare: https://stackshare.io/elasticsearch 
 
工具
Grok Debugger(国内镜像):http://grok.elasticsearch.cn 
Grokdebug:http://grokdebug.herokuapp.com 
Elastic情报局:https://index.elasticsearch.cn

欢迎补充完善!!
继续阅读 »
Elastic 社区: http://elasticsearch.cn 
 
社区活动:
 
Elastic 中国开发者大会:http://conf.elasticsearch.cn 
线下 Meetup: http://www.meetup.com/Elasticsearch-China-Users/ 
历史活动 PPT 下载:链接: https://pan.baidu.com/s/1hsnFNEW 密码: hfp1

Elastic 日报:
 
订阅:https://tinyletter.com/elastic-daily 
归档:https://elasticsearch.cn/explore/category-18

社区微信公众号

中文社区qrcode.png


交流QQ群:

Elastic中文社区1 (190605846) 
Elastic中文社区2(211682609) 
Elastic中文社区3(258143901)
Elastic中文社区4  (456336484)
Elastic中文社区5  (223764502)
ELKstack交流1群(315428175)

官方资源:

Elastic 官方网站:http://elastic.co
Elastic 用户大会: http://elasticon.com 
Elastic 源代码:http://github.com/elastic 
Elastic 案例大全: https://github.com/elastic/examples/ 
Elastic@Speakdeck: https://speakerdeck.com/elastic 
Elastic@Vimeo: https://vimeo.com/elasticsearch 
Elastic@Youtube: https://www.youtube.com/user/elasticsearch
Elastic@Facebook: http://www.facebook.com/elastic.co
Elastic@Twitter: https://www.twitter.com/elastic
Elastic@Linkedin: https://www.linkedin.com/company/elastic-co
Elastic@Xing: https://www.xing.com/companies/elastic.co
 

相关书籍

[官方] Elasticsearch 权威指南: https://www.elastic.co/guide/cn/index.html
ELKStack中文指南:  http://kibana.logstash.es/
Kibana 中文指南:http://chenryn.gitbooks.io/kibana-guide-cn/
Exploring elasticsearch: http://exploringelasticsearch.com/

其他资源

Elasticsearch Stackshare: https://stackshare.io/elasticsearch 
 
工具
Grok Debugger(国内镜像):http://grok.elasticsearch.cn 
Grokdebug:http://grokdebug.herokuapp.com 
Elastic情报局:https://index.elasticsearch.cn

欢迎补充完善!! 收起阅读 »

Elasticsearch China Conference #4 In Chengdu

时间:Sunday, November 22, 2015   1:00 PM
地点:四川成都市高新区天府大道中段1366号天府软件园E3-1-11层
 
报名地址: [/url]


ESCC#4全称:The 4th Elasticsearch China Conference,

是由elasticsearch中文社区每年定期举办的线下交流活动,今年已经是第四届了,会议围绕elasticsearch及周边产品和技术,如:kibana\logstash\beats\logging\nlp等相关领域及话题都可以进行讨论,只要是你认为可能会感兴趣的话题,都可以提交过来,分享嘉宾来自国内一线互联网公司,倡导干货接地气纯粹的技术交流.

分享主题

一,《What's New in Elasticsearch2.0?》

内容介绍:

Elasticsearch2.0新特性介绍! 

分享者简介:Medcl,Elastic开发工程师及布道师.

二,《基于es构建实时日志检索平台》

内容介绍:

2011年毕业后加入京东,作为项目技术负责人以及架构师参与了hadoop生态系统建设一期、云存储一期、统一日志、公有PAAS平台和基于容器技术的自动部署等项目。目前在京东成都研究院工具部主要负责工具部各个项目系统架构和产品优化和创新。作为一个技术极客希望组建一支一流的技术团队,同时希望和各位技术爱好者一起交流技术以及技术创新。 提纲:

1.系统整体架构介绍
2.日志采集方案以及实现原理介绍   

3.日志转发方案以及实现原理介绍
4.日志搜索实现
5.es优化简介。

分享者简介:吴友强 京东成都研究院工具部负责人兼系统架构师

三,《ElasticSearch:fast and slow》​

内容介绍:   
1,系统整体架构介绍
2,两个不同场景下的es查询入库优化方案
3,场景一:毫秒级低延迟入库加查询(fast)
4,场景二:依赖hadoop做pb级别以上查询(slow)
    
分享者简介:查超,瀚思安信基础平台部 研究人员

更多讲师及分享主题介绍陆续添加中...


鸣谢:

感谢 货车帮对这次活动的大力支持
继续阅读 »
时间:Sunday, November 22, 2015   1:00 PM
地点:四川成都市高新区天府大道中段1366号天府软件园E3-1-11层
 
报名地址: [/url]


ESCC#4全称:The 4th Elasticsearch China Conference,

是由elasticsearch中文社区每年定期举办的线下交流活动,今年已经是第四届了,会议围绕elasticsearch及周边产品和技术,如:kibana\logstash\beats\logging\nlp等相关领域及话题都可以进行讨论,只要是你认为可能会感兴趣的话题,都可以提交过来,分享嘉宾来自国内一线互联网公司,倡导干货接地气纯粹的技术交流.

分享主题

一,《What's New in Elasticsearch2.0?》

内容介绍:

Elasticsearch2.0新特性介绍! 

分享者简介:Medcl,Elastic开发工程师及布道师.

二,《基于es构建实时日志检索平台》

内容介绍:

2011年毕业后加入京东,作为项目技术负责人以及架构师参与了hadoop生态系统建设一期、云存储一期、统一日志、公有PAAS平台和基于容器技术的自动部署等项目。目前在京东成都研究院工具部主要负责工具部各个项目系统架构和产品优化和创新。作为一个技术极客希望组建一支一流的技术团队,同时希望和各位技术爱好者一起交流技术以及技术创新。 提纲:

1.系统整体架构介绍
2.日志采集方案以及实现原理介绍   

3.日志转发方案以及实现原理介绍
4.日志搜索实现
5.es优化简介。

分享者简介:吴友强 京东成都研究院工具部负责人兼系统架构师

三,《ElasticSearch:fast and slow》​

内容介绍:   
1,系统整体架构介绍
2,两个不同场景下的es查询入库优化方案
3,场景一:毫秒级低延迟入库加查询(fast)
4,场景二:依赖hadoop做pb级别以上查询(slow)
    
分享者简介:查超,瀚思安信基础平台部 研究人员

更多讲师及分享主题介绍陆续添加中...


鸣谢:

感谢 货车帮对这次活动的大力支持 收起阅读 »

第四届Elasticsearch国内开发者大会站 成都站 马上开始了

相信前面大家都知道在北京和上海已经举办了2场线下活动了,下一站是哪里呢??
 第四届Elasticsearch国内开发者大会站 成都站  是的 ,下一站是在成都,并且马上就要开始了,
报名的速度了,
紧急征集讲师和志愿者中!!!!
 
报名地址;
http://form.mikecrm.com/f.php?t=mOUa1M 
 
继续阅读 »
相信前面大家都知道在北京和上海已经举办了2场线下活动了,下一站是哪里呢??
 第四届Elasticsearch国内开发者大会站 成都站  是的 ,下一站是在成都,并且马上就要开始了,
报名的速度了,
紧急征集讲师和志愿者中!!!!
 
报名地址;
http://form.mikecrm.com/f.php?t=mOUa1M 
  收起阅读 »

10月北京es第4届国内开发者大会现在可以开始报名了.

第四届Elasticsearch国内开发者大会北京站马上就要开始了,目前已确定分享的主题有6篇了,有来自百度\新浪\芒果TV等公司同学们的精彩分享,有国内最大规模elasticsearch集群搭建的经验分享,有ELK的实践应用,有最新的Kibana4的插件开发,有安全领域的分析实战,干货多多,非常值得期待,报名地址(因为meetup不支持国内很多邮箱的注册,请大家使用下面的表单报名,辛苦已经报过名的同学了): [ http://t.cn/Ry2aVzr]( http://t.cn/Ry2aVzr)

ESCC#4全称:The 4th Elasticsearch China Conference,是由elasticsearch中文社区每年定期举办的线下交流活动,今年已经是第四届了,会议围绕elasticsearch及周边产品和技术,如:kibana\logstash\beats\logging\nlp等相关领域及话题都可以进行讨论,只要是你认为可能会感兴趣的话题,都可以提交过来,分享嘉宾来自国内一线互联网公司,倡导干货接地气纯粹的技术交流.​

北京地区:
地点:中国科学院软件研究所; 时间:2015年10月17日

其它城市正在筹划中,有愿意提供帮助和愿意分享你们和elasticsearch的经验或者故事的同学欢迎和Medcl联系.

关于活动最新动态请访问: http://www.meetup.com/Elasticsearch-China-Users/
继续阅读 »
第四届Elasticsearch国内开发者大会北京站马上就要开始了,目前已确定分享的主题有6篇了,有来自百度\新浪\芒果TV等公司同学们的精彩分享,有国内最大规模elasticsearch集群搭建的经验分享,有ELK的实践应用,有最新的Kibana4的插件开发,有安全领域的分析实战,干货多多,非常值得期待,报名地址(因为meetup不支持国内很多邮箱的注册,请大家使用下面的表单报名,辛苦已经报过名的同学了): [ http://t.cn/Ry2aVzr]( http://t.cn/Ry2aVzr)

ESCC#4全称:The 4th Elasticsearch China Conference,是由elasticsearch中文社区每年定期举办的线下交流活动,今年已经是第四届了,会议围绕elasticsearch及周边产品和技术,如:kibana\logstash\beats\logging\nlp等相关领域及话题都可以进行讨论,只要是你认为可能会感兴趣的话题,都可以提交过来,分享嘉宾来自国内一线互联网公司,倡导干货接地气纯粹的技术交流.​

北京地区:
地点:中国科学院软件研究所; 时间:2015年10月17日

其它城市正在筹划中,有愿意提供帮助和愿意分享你们和elasticsearch的经验或者故事的同学欢迎和Medcl联系.

关于活动最新动态请访问: http://www.meetup.com/Elasticsearch-China-Users/ 收起阅读 »

《Elasticsearch权威指南》中文版开始翻译

![cover](https://raw.githubusercontent. ... ll.jpg)

本来想自己翻译这本书的,但是发现章节的数量已经超出能力范围,每天时间也有限,在不断的努力以及几个热心人的参与下,完成了6章的翻译。如果你对Elasticsearch感兴趣或者在工作中有用,那就关注我们的翻译。有兴趣的也可以fork后提交Pull Request。当然,我觉得前6章入门已经够用,如果你想学习也可以关注我们的翻译。

Github地址: https://github.com/looly/elast ... de-cn

Git@OSC地址: http://git.oschina.net/loolly/ ... de-cn

GitBook阅读地址: http://es.xiaoleilu.com/

### PS:封面是我自己设计的哦~~
继续阅读 »
![cover](https://raw.githubusercontent. ... ll.jpg)

本来想自己翻译这本书的,但是发现章节的数量已经超出能力范围,每天时间也有限,在不断的努力以及几个热心人的参与下,完成了6章的翻译。如果你对Elasticsearch感兴趣或者在工作中有用,那就关注我们的翻译。有兴趣的也可以fork后提交Pull Request。当然,我觉得前6章入门已经够用,如果你想学习也可以关注我们的翻译。

Github地址: https://github.com/looly/elast ... de-cn

Git@OSC地址: http://git.oschina.net/loolly/ ... de-cn

GitBook阅读地址: http://es.xiaoleilu.com/

### PS:封面是我自己设计的哦~~ 收起阅读 »