elastic

elastic

Elastic 寻找优秀的您

求职招聘medcl 发表了文章 • 0 个评论 • 529 次浏览 • 18 小时前 • 来自相关话题

想不想去最棒的开源软件公司工作?
想不想不用朝9晚5浪费大量时间在路上,在家就能办公?
想不想让您的代码运行在成千上万台服务器上面,拯救世界?
想不想工作与生活的完美结合,做自己感兴趣的事情?
... ...
那考虑来Elastic吧,与全球顶尖工程师一起合作,福利待遇从优,一年至少2次出国机会。
基本要求:
英语流利沟通掌握现代开发技术贡献过Elastic相关开源项目者优先
下面是热招职位,位置不限,Anywhere!
Cloud Engineer - Security Cloud Team Manager Data Analyst Golang Developer - Beats Team Java Engineer Java Engineer - Distributed Systems Java Engineer - Geo Senior JavaScript Engineer - Beats Team Software Engineer (C++) - Machine Learning

除了上面这些,还有很多其他市场商务类,
查看 Elastic 全部在招职位信息,点击这里!

关于 Elastic
Elastic 致力于构建大规模实时数据处理软件,场景主要涵盖搜索、日志、安全与数据分析等领域。公司成立于 2012 年,旗下拥有产品:开源的 Elastic Stack(Elasticsearch、Kibana、Beats 和 Logstash)、 X-Pack (商业特性)和 Elastic Cloud (一个 SaaS 服务)。迄今为止,这些产品的累积下载次数已超过 1 亿。
成千上万的企业包括思科、易趣、高盛、美国宇航局、微软、梅约诊所、纽约时报、维基百科以及微讯通信等都在使用 Elastic 来助力其关键业务应用。 
Elastic 由 Benchmark Capital、Index Ventures 及 NEA 投资,投资额超过 1 亿美金。Elastic 拥有超过 500 位员工,分布于世界上 30 多个国家和地区。了解更多请访问: elastic.co 。
  查看全部
ElasticON16-Group-Photo-small.jpg

想不想去最棒的开源软件公司工作?
想不想不用朝9晚5浪费大量时间在路上,在家就能办公?
想不想让您的代码运行在成千上万台服务器上面,拯救世界?
想不想工作与生活的完美结合,做自己感兴趣的事情?
... ...
那考虑来Elastic吧,与全球顶尖工程师一起合作,福利待遇从优,一年至少2次出国机会。
基本要求:
  • 英语流利沟通
  • 掌握现代开发技术
  • 贡献过Elastic相关开源项目者优先

下面是热招职位,位置不限,Anywhere!


除了上面这些,还有很多其他市场商务类,
查看 Elastic 全部在招职位信息,点击这里

关于 Elastic
Elastic 致力于构建大规模实时数据处理软件,场景主要涵盖搜索、日志、安全与数据分析等领域。公司成立于 2012 年,旗下拥有产品:开源的 Elastic Stack(Elasticsearch、Kibana、Beats 和 Logstash)、 X-Pack (商业特性)和 Elastic Cloud (一个 SaaS 服务)。迄今为止,这些产品的累积下载次数已超过 1 亿。
成千上万的企业包括思科、易趣、高盛、美国宇航局、微软、梅约诊所、纽约时报、维基百科以及微讯通信等都在使用 Elastic 来助力其关键业务应用。 
Elastic 由 Benchmark Capital、Index Ventures 及 NEA 投资,投资额超过 1 亿美金。Elastic 拥有超过 500 位员工,分布于世界上 30 多个国家和地区。了解更多请访问: elastic.co 。
 

elastic search 查询统计

Elasticsearchmedcl 回复了问题 • 2 人关注 • 3 个回复 • 1347 次浏览 • 2017-07-09 13:01 • 来自相关话题

es集群规模较大时,配置文件一般怎么管理?

Elasticsearchkennywu76 回复了问题 • 3 人关注 • 1 个回复 • 2049 次浏览 • 2017-06-26 12:44 • 来自相关话题

ElasticHD: ElasticSearch Dashboard Application

Elasticsearchfarmerx 发表了文章 • 21 个评论 • 2072 次浏览 • 2017-06-06 14:55 • 来自相关话题

ElasticHD 是一款 ElasticSearch的可视化应用。不依赖ES的插件安装,更便捷;导航栏直接填写对应的ES IP和端口就可以操作Es了。目前支持如下功能:
 ES Real time data search ES Dashboard data visualization ES Index Template (在线修改、查看、上传) ES Indices Index deletion and search SQL Converts to Elasticsearch DSL ES 基本查询文档



Install elasticHD
Precompiled binaries for supported operating systems are available.
Basic Usage
  linux and MacOs use ElasticHD
下载对应的elasticHD版本,unzip xxx_elasticHd_xxx.zip 修改权限 chmod 0777 ElasticHD 可指定ip端口运行elastichd ./ElasticHD -p 127.0.0.1:9800 默认 ip和端口也是这个
 windows use ElasticHD 直接下载对应windows版本,解压,双击运行。当然想指定端口的话同linux
  

 Application Info
  查看全部


ElasticHD 是一款 ElasticSearch的可视化应用。不依赖ES的插件安装,更便捷;导航栏直接填写对应的ES IP和端口就可以操作Es了。目前支持如下功能:

  •  ES Real time data search
  •  ES Dashboard data visualization
  •  ES Index Template (在线修改、查看、上传)
  •  ES Indices Index deletion and search
  •  SQL Converts to Elasticsearch DSL
  •  ES 基本查询文档




Install elasticHD
Precompiled binaries for supported operating systems are available.
Basic Usage
  •   linux and MacOs use ElasticHD

  1. 下载对应的elasticHD版本,unzip xxx_elasticHd_xxx.zip 
  2. 修改权限 chmod 0777 ElasticHD 
  3. 可指定ip端口运行elastichd ./ElasticHD -p 127.0.0.1:9800 默认 ip和端口也是这个

  •  windows use ElasticHD 
  • 直接下载对应windows版本,解压,双击运行。当然想指定端口的话同linux

  

     Application Info
     

    请教新手学习Elastic进阶路径

    经验分享medcl 回复了问题 • 6 人关注 • 3 个回复 • 1744 次浏览 • 2017-05-26 18:56 • 来自相关话题

    es首次查询缓慢

    Elasticsearchfhyes123 回复了问题 • 4 人关注 • 3 个回复 • 1829 次浏览 • 2017-04-17 16:24 • 来自相关话题

    如果目前索引已存在,如何增加分片数量?

    ElasticsearchJea 回复了问题 • 4 人关注 • 2 个回复 • 656 次浏览 • 2017-04-14 13:53 • 来自相关话题

    es索引的时候内存问题

    ElasticsearchJea 回复了问题 • 4 人关注 • 2 个回复 • 1632 次浏览 • 2017-04-14 13:41 • 来自相关话题

    elasticsearch lucene版本冲突问题

    回复

    Elasticsearchgangajun 发起了问题 • 1 人关注 • 0 个回复 • 557 次浏览 • 2017-04-07 21:54 • 来自相关话题

    elasticsearch5.1 高亮问题

    Elasticsearchkennywu76 回复了问题 • 2 人关注 • 1 个回复 • 1805 次浏览 • 2017-03-28 14:16 • 来自相关话题

    elastic search 查询统计

    回复

    Elasticsearchmedcl 回复了问题 • 2 人关注 • 3 个回复 • 1347 次浏览 • 2017-07-09 13:01 • 来自相关话题

    es集群规模较大时,配置文件一般怎么管理?

    回复

    Elasticsearchkennywu76 回复了问题 • 3 人关注 • 1 个回复 • 2049 次浏览 • 2017-06-26 12:44 • 来自相关话题

    请教新手学习Elastic进阶路径

    回复

    经验分享medcl 回复了问题 • 6 人关注 • 3 个回复 • 1744 次浏览 • 2017-05-26 18:56 • 来自相关话题

    es首次查询缓慢

    回复

    Elasticsearchfhyes123 回复了问题 • 4 人关注 • 3 个回复 • 1829 次浏览 • 2017-04-17 16:24 • 来自相关话题

    如果目前索引已存在,如何增加分片数量?

    回复

    ElasticsearchJea 回复了问题 • 4 人关注 • 2 个回复 • 656 次浏览 • 2017-04-14 13:53 • 来自相关话题

    es索引的时候内存问题

    回复

    ElasticsearchJea 回复了问题 • 4 人关注 • 2 个回复 • 1632 次浏览 • 2017-04-14 13:41 • 来自相关话题

    elasticsearch lucene版本冲突问题

    回复

    Elasticsearchgangajun 发起了问题 • 1 人关注 • 0 个回复 • 557 次浏览 • 2017-04-07 21:54 • 来自相关话题

    elasticsearch5.1 高亮问题

    回复

    Elasticsearchkennywu76 回复了问题 • 2 人关注 • 1 个回复 • 1805 次浏览 • 2017-03-28 14:16 • 来自相关话题

    es5.2.2的java技术选型问题

    回复

    Elasticsearchmedcl 回复了问题 • 2 人关注 • 1 个回复 • 608 次浏览 • 2017-03-25 10:26 • 来自相关话题

    java调用elastic集群问题

    回复

    Elasticsearchhacker 回复了问题 • 3 人关注 • 2 个回复 • 1623 次浏览 • 2017-02-21 17:56 • 来自相关话题

    Elastic 寻找优秀的您

    求职招聘medcl 发表了文章 • 0 个评论 • 529 次浏览 • 18 小时前 • 来自相关话题

    想不想去最棒的开源软件公司工作?
    想不想不用朝9晚5浪费大量时间在路上,在家就能办公?
    想不想让您的代码运行在成千上万台服务器上面,拯救世界?
    想不想工作与生活的完美结合,做自己感兴趣的事情?
    ... ...
    那考虑来Elastic吧,与全球顶尖工程师一起合作,福利待遇从优,一年至少2次出国机会。
    基本要求:
    英语流利沟通掌握现代开发技术贡献过Elastic相关开源项目者优先
    下面是热招职位,位置不限,Anywhere!
    Cloud Engineer - Security Cloud Team Manager Data Analyst Golang Developer - Beats Team Java Engineer Java Engineer - Distributed Systems Java Engineer - Geo Senior JavaScript Engineer - Beats Team Software Engineer (C++) - Machine Learning

    除了上面这些,还有很多其他市场商务类,
    查看 Elastic 全部在招职位信息,点击这里!

    关于 Elastic
    Elastic 致力于构建大规模实时数据处理软件,场景主要涵盖搜索、日志、安全与数据分析等领域。公司成立于 2012 年,旗下拥有产品:开源的 Elastic Stack(Elasticsearch、Kibana、Beats 和 Logstash)、 X-Pack (商业特性)和 Elastic Cloud (一个 SaaS 服务)。迄今为止,这些产品的累积下载次数已超过 1 亿。
    成千上万的企业包括思科、易趣、高盛、美国宇航局、微软、梅约诊所、纽约时报、维基百科以及微讯通信等都在使用 Elastic 来助力其关键业务应用。 
    Elastic 由 Benchmark Capital、Index Ventures 及 NEA 投资,投资额超过 1 亿美金。Elastic 拥有超过 500 位员工,分布于世界上 30 多个国家和地区。了解更多请访问: elastic.co 。
      查看全部
    ElasticON16-Group-Photo-small.jpg

    想不想去最棒的开源软件公司工作?
    想不想不用朝9晚5浪费大量时间在路上,在家就能办公?
    想不想让您的代码运行在成千上万台服务器上面,拯救世界?
    想不想工作与生活的完美结合,做自己感兴趣的事情?
    ... ...
    那考虑来Elastic吧,与全球顶尖工程师一起合作,福利待遇从优,一年至少2次出国机会。
    基本要求:
    • 英语流利沟通
    • 掌握现代开发技术
    • 贡献过Elastic相关开源项目者优先

    下面是热招职位,位置不限,Anywhere!


    除了上面这些,还有很多其他市场商务类,
    查看 Elastic 全部在招职位信息,点击这里

    关于 Elastic
    Elastic 致力于构建大规模实时数据处理软件,场景主要涵盖搜索、日志、安全与数据分析等领域。公司成立于 2012 年,旗下拥有产品:开源的 Elastic Stack(Elasticsearch、Kibana、Beats 和 Logstash)、 X-Pack (商业特性)和 Elastic Cloud (一个 SaaS 服务)。迄今为止,这些产品的累积下载次数已超过 1 亿。
    成千上万的企业包括思科、易趣、高盛、美国宇航局、微软、梅约诊所、纽约时报、维基百科以及微讯通信等都在使用 Elastic 来助力其关键业务应用。 
    Elastic 由 Benchmark Capital、Index Ventures 及 NEA 投资,投资额超过 1 亿美金。Elastic 拥有超过 500 位员工,分布于世界上 30 多个国家和地区。了解更多请访问: elastic.co 。
     

    ElasticHD: ElasticSearch Dashboard Application

    Elasticsearchfarmerx 发表了文章 • 21 个评论 • 2072 次浏览 • 2017-06-06 14:55 • 来自相关话题

    ElasticHD 是一款 ElasticSearch的可视化应用。不依赖ES的插件安装,更便捷;导航栏直接填写对应的ES IP和端口就可以操作Es了。目前支持如下功能:
     ES Real time data search ES Dashboard data visualization ES Index Template (在线修改、查看、上传) ES Indices Index deletion and search SQL Converts to Elasticsearch DSL ES 基本查询文档



    Install elasticHD
    Precompiled binaries for supported operating systems are available.
    Basic Usage
      linux and MacOs use ElasticHD
    下载对应的elasticHD版本,unzip xxx_elasticHd_xxx.zip 修改权限 chmod 0777 ElasticHD 可指定ip端口运行elastichd ./ElasticHD -p 127.0.0.1:9800 默认 ip和端口也是这个
     windows use ElasticHD 直接下载对应windows版本,解压,双击运行。当然想指定端口的话同linux
      

     Application Info
      查看全部


    ElasticHD 是一款 ElasticSearch的可视化应用。不依赖ES的插件安装,更便捷;导航栏直接填写对应的ES IP和端口就可以操作Es了。目前支持如下功能:

    •  ES Real time data search
    •  ES Dashboard data visualization
    •  ES Index Template (在线修改、查看、上传)
    •  ES Indices Index deletion and search
    •  SQL Converts to Elasticsearch DSL
    •  ES 基本查询文档




    Install elasticHD
    Precompiled binaries for supported operating systems are available.
    Basic Usage
    •   linux and MacOs use ElasticHD

    1. 下载对应的elasticHD版本,unzip xxx_elasticHd_xxx.zip 
    2. 修改权限 chmod 0777 ElasticHD 
    3. 可指定ip端口运行elastichd ./ElasticHD -p 127.0.0.1:9800 默认 ip和端口也是这个

    •  windows use ElasticHD 
    • 直接下载对应windows版本,解压,双击运行。当然想指定端口的话同linux

      

       Application Info
       

      Elastic{ON} Dev China 2016 开始报名了!

      资讯动态medcl 发表了文章 • 8 个评论 • 2181 次浏览 • 2016-09-20 22:23 • 来自相关话题

      大会网站:https://info.elastic.co/elasticon-dev-china.html 
      大会网站:​[url=http://conf.elasticsearch.cn]http://conf.elasticsearch.cn​[/url]
      大会介绍:
      Elastic 中国开发者大会 2016(Elastic{ON} Dev China 2016)是由 Elastic 官方在中国举办的第一次开发者大会,前身 ESCC (Elasticsearch China Conference) 是由 Elastic 中文社区每年定期举办的线下交流活动,主要围绕 Elastic 的开源产品: Elasticsearch、Logstash、Kibana 和 Beats,探讨在搜索、数据实时分析、日志分析、安全等领域的实践与应用。 

      大会时间:
      2016-12-10 08:00 至 2016-12-10 18:00 周六
       
      如何参与:
      提供赞助:http://elasticsearch.mikecrm.com/nECSP4
      提交演讲:http://elasticsearch.mikecrm.com/x0y56G
      当志愿者:http://elasticsearch.mikecrm.com/n5BVwP
      购买门票:http://event.3188.la/460820612/
       
      大会具体场地和日程不断更新中,敬请关注! 查看全部
      大会网站:https://info.elastic.co/elasticon-dev-china.html 
      大会网站:​[url=http://conf.elasticsearch.cn]http://conf.elasticsearch.cn​[/url]
      大会介绍:
      Elastic 中国开发者大会 2016(Elastic{ON} Dev China 2016)是由 Elastic 官方在中国举办的第一次开发者大会,前身 ESCC (Elasticsearch China Conference) 是由 Elastic 中文社区每年定期举办的线下交流活动,主要围绕 Elastic 的开源产品: Elasticsearch、Logstash、Kibana 和 Beats,探讨在搜索、数据实时分析、日志分析、安全等领域的实践与应用。 

      大会时间:
      2016-12-10 08:00 至 2016-12-10 18:00 周六
       
      如何参与:
      提供赞助:http://elasticsearch.mikecrm.com/nECSP4
      提交演讲:http://elasticsearch.mikecrm.com/x0y56G
      当志愿者:http://elasticsearch.mikecrm.com/n5BVwP
      购买门票:http://event.3188.la/460820612/
       
      大会具体场地和日程不断更新中,敬请关注!

      如何反向设置es mapping template

      Elasticsearchrunc 发表了文章 • 1 个评论 • 1946 次浏览 • 2016-08-31 14:26 • 来自相关话题

      比如,由logstash打到es中的数据,除了其中一个字段比如message,其余字段都想设置为not analyzed,这种情况如何设置?貌似目前es只支持设置那些具体的字段为not analyzed,而不能反过来设置啊?
      比如,由logstash打到es中的数据,除了其中一个字段比如message,其余字段都想设置为not analyzed,这种情况如何设置?貌似目前es只支持设置那些具体的字段为not analyzed,而不能反过来设置啊?

      Elastic中文社区【深圳】第一次线下活动 开始报名啦!

      Elasticsearchnodexy 发表了文章 • 1 个评论 • 3132 次浏览 • 2016-08-09 15:34 • 来自相关话题

      Elastic中文社区技术沙龙【深圳站】 
      主办方:elastic中文社区        http://elasticsearch.cn/article/99 协办方:vivo移动互联网中心 [url=http://www.vivo.com.cn]http://www.vivo.com.cn [/url]






      PPT 下载: https://github.com/node/esmeetup-shenzhen2016 

      活动现场:






      活动信息:
      活动时间:2016年9月10日 下午13:00活动地点:深圳市福田区上梅林地铁站 安得街89号步步高大楼1楼场地容量:100人活动费用:免费 ( 现场有福利派发 : )交通信息:地铁4号龙华线 上梅林站 ,公交 万科大厦站参考地标:梅林天虹西侧,卓越城对面

      报名方式:
      报名链接:http://biaodan100.com/web/form ... 4e1e4或者扫码二维码:





      真诚邀请对elastic技术栈,搜索引擎技术,大数据存储索引可视化,日志分析等技术感兴趣的朋友前来交流和分享。

      分享主题:
      ElasticStack V5 新特性与变化              By 曾勇@elastic  Elastic开发工程师与技术布道师ElasticStack包括Elasticsearch、Logstash、Kibana和Beats,ElasticStack将在过段时间发布一个V5.0全新版本,这次的分享将给大家介绍一下5.0版里面各个产品的一些新的特性和改进。曾勇是Elasticsearch国内首批用户,自2010年起就开始接触Elasticsearch并投入到生产环境中使用,并编写过一系列的中文处理相关的插件,是Elasticsearch中文社区发起人,筹办了一系列线上线下的Elasticsearch技术分享与交流活动,出于对Elasticsearch的喜爱,目前已全职加入Elasticsearch项目背后的Elastic公司。ELK应用 --- 一卡易实时日志分析平台   By 夏小成@一卡易   一线码农目前一卡易实时日志分析平台汇集了包括windows事务日志、linux日志、haproxy访问日志、业务数据库审计日志和大数据平台日志,为一卡易数十个产品线提供了便捷的日志检索和分析服务。未来我们会把elasticsearch逐渐引入到我们的业务系统,更深层次挖掘她的魅力。构建数据驱动的动画工作室 - es及ELK实践          By 赵昆@东方梦工厂   IT与数据系统工程师京东日志系统es运维经验分享及es源码改造实践   By 成睿 @京东曾负责京东日志系统的搜索平台,目前负责京东到家商品搜索平台。介绍京东日志系统es的一些运维经验和我2次改es源代码的实践。



      ----------------------------------------------------------------------------------
      联络邮件: nodexy@qq.com 或者直接站内私信。----------------------------------------------------------------------------------

        查看全部
      Elastic中文社区技术沙龙【深圳站】 

      es-vmic-weixin.png



      PPT 下载: https://github.com/node/esmeetup-shenzhen2016 

      活动现场:
      Elastic技术沙龙_深圳站_大合影_final.jpg



      活动信息:
      • 活动时间:2016年9月10日 下午13:00
      • 活动地点:深圳市福田区上梅林地铁站 安得街89号步步高大楼1楼
      • 场地容量:100人
      • 活动费用:免费 ( 现场有福利派发 : )
      • 交通信息:地铁4号龙华线 上梅林站 ,公交 万科大厦站
      • 参考地标:梅林天虹西侧,卓越城对面


      报名方式:

      qrcode.jpg


      真诚邀请对elastic技术栈,搜索引擎技术,大数据存储索引可视化,日志分析等技术感兴趣的朋友前来交流和分享。

      分享主题:
      • ElasticStack V5 新特性与变化              By 曾勇@elastic  Elastic开发工程师与技术布道师ElasticStack包括Elasticsearch、Logstash、Kibana和Beats,ElasticStack将在过段时间发布一个V5.0全新版本,这次的分享将给大家介绍一下5.0版里面各个产品的一些新的特性和改进。曾勇是Elasticsearch国内首批用户,自2010年起就开始接触Elasticsearch并投入到生产环境中使用,并编写过一系列的中文处理相关的插件,是Elasticsearch中文社区发起人,筹办了一系列线上线下的Elasticsearch技术分享与交流活动,出于对Elasticsearch的喜爱,目前已全职加入Elasticsearch项目背后的Elastic公司。
      • ELK应用 --- 一卡易实时日志分析平台   By 夏小成@一卡易   一线码农目前一卡易实时日志分析平台汇集了包括windows事务日志、linux日志、haproxy访问日志、业务数据库审计日志和大数据平台日志,为一卡易数十个产品线提供了便捷的日志检索和分析服务。未来我们会把elasticsearch逐渐引入到我们的业务系统,更深层次挖掘她的魅力。
      • 构建数据驱动的动画工作室 - es及ELK实践          By 赵昆@东方梦工厂   IT与数据系统工程师
      • 京东日志系统es运维经验分享及es源码改造实践   By 成睿 @京东曾负责京东日志系统的搜索平台,目前负责京东到家商品搜索平台。介绍京东日志系统es的一些运维经验和我2次改es源代码的实践。




      ----------------------------------------------------------------------------------
      联络邮件: nodexy@qq.com 或者直接站内私信。----------------------------------------------------------------------------------

       

      laravel5.2 & es2.3.4 Demo

      Elasticsearchzhuowenji 发表了文章 • 1 个评论 • 1905 次浏览 • 2016-07-17 07:37 • 来自相关话题

      http://laravel.fuxiben.com/elastic  测试地址 
      https://github.com/zhuowenji/Laravel5.2-Demo   github地址 
       
       
      搞了一晚上,头疼,高亮,分页,高级搜索还没搞。大家有建议或者 demo的一起分享下! 查看全部
      http://laravel.fuxiben.com/elastic  测试地址 
      https://github.com/zhuowenji/Laravel5.2-Demo   github地址 
       
       
      搞了一晚上,头疼,高亮,分页,高级搜索还没搞。大家有建议或者 demo的一起分享下!

      ElasticSearch插件集

      Elasticsearchkl 发表了文章 • 0 个评论 • 3465 次浏览 • 2016-03-30 18:07 • 来自相关话题

      ElasticSearch的很多功能都是官方或第三方基于ElasticSearch的AbstractPlugin类实现的插件来提供的,所以,在里里记录下一些常用的及实用的插件地址,以备不时之需

      分词插件

      Combo Analysis Plugin (作者 Olivier Favre, Yakaz)

      简介:组合分词器,可以把多个分词器的结果组合在一起。

      Smart Chinese Analysis Plugin (作者 elasticsearch 团队)

      简介:lucene默认的中文分词器

      ICU Analysis plugin (作者 elasticsearch 团队)

      简介:lucene自带的ICU分词,ICU是一套稳定、成熟、功能强大、轻便易用和跨平台支持Unicode 的开发包。

      Stempel (Polish) Analysis plugin (作者 elasticsearch 团队)

      简介:法文分词器

      IK Analysis Plugin (作者 Medcl)

      简介:大名鼎鼎的ik分词,都懂的!

      Mmseg Analysis Plugin (作者 Medcl)

      简介:mmseg中文分词

      Hunspell Analysis Plugin (作者 Jörg Prante)

      简介:lucene自带的Hunspell模块

      Japanese (Kuromoji) Analysis plugin (作者 elasticsearch 团队).

      简介:日文分词器

      Japanese Analysis plugin (作者 suguru).

      简介:日文分词器

      Russian and English Morphological Analysis Plugin (作者 Igor Motov)

      简介:俄文英文分词器

      Pinyin Analysis Plugin (作者 Medcl)

      简介:拼音分词器

      String2Integer Analysis Plugin (作者 Medcl)

      简介:字符串转整型工具。主要用在facet这个功能上,如果facet的field的值是字符串的话,计算起来比较耗资源。可以把字符串映射成整型,对整型进行facet操作要比对字符串的快很多。

      同步插件

      CouchDB River Plugin (作者 elasticsearch 团队)

      简介:CouchDB和elasticsearch的同步插件

      Wikipedia River Plugin (作者 elasticsearch 团队)

      简介:wikipedia文件读取插件。wikipedia是维基百科的一个离线库,不定期发布最新数据,是以xml形式发布的。这个river读取这个文件来建索引。

      Twitter River Plugin (作者 elasticsearch 团队)

      简介:twitter的同步插件,可以同步你twitter上的微博。

      RabbitMQ River Plugin (作者 elasticsearch 团队)

      简介:rabbitmq同步插件,读取rabbitmq上的队列信息并索引。

      RSS River Plugin (作者 David Pilato)

      简介:定期索引指定一个或多个RSS源的数据。

      MongoDB River Plugin (作者 Richard Louapre)

      简介:mongodb同步插件,mongodb必须搭成副本集的模式,因为这个插件的原理是通过定期读取mongodb中的oplog来同步数据。

      Open Archives Initiative (OAI) River Plugin (作者 Jörg Prante)

      简介:可以索引oai数据提供者提供的数据。

      Sofa River Plugin (作者 adamlofts)

      简介:这个插件可以把多个CouchDB的数据库同步到同一个es索引中。

      JDBC River Plugin (作者 Jörg Prante)

      简介:关系型数据库的同步插件

      FileSystem River Plugin (作者 David Pilato)

      简介:本地文件系统文件同步插件,使用方法是指定一个本地目录路径,es会定期扫描索引该目录下的文件。

      LDAP River Plugin (作者 Tanguy Leroux)

      简介:索引LDAP目录下的文件数据。

      Dropbox River Plugin (作者 David Pilato)

      简介:索引dropbox网盘上的文件。通过oauth协议来调用dropbox上的api建索引。

      ActiveMQ River Plugin (作者 Dominik Dorn)

      简介:activemq队列的同步插件,和之前rabbitmq的类似

      Solr River Plugin (作者 Luca Cavanna)

      简介:solr同步插件,可以把solr里面的索引同步到es

      CSV River Plugin (作者 Martin Bednar)

      简介:通过指定目录地址来索引csv文件。

      数据传输插件

      Servlet transport (作者 elasticsearch 团队)

      简介:Servlet rest插件,通过servlet来封装rest接口。

      Memcached transport plugin (作者 elasticsearch 团队)

      简介:本插件可以通过memcached协议进行rest接口的调用。注意:这里不是使用memcache作为es的缓存。

      Thrift Transport (作者 elasticsearch 团队)

      简介:使用thrift进行数据传输。

      ZeroMQ transport layer plugin (作者 Tanguy Leroux)

      简介:使用zeromq进rest接口的调用。

      Jetty HTTP transport plugin (作者 Sonian Inc.)

      简介:使用jetty来提供http rest接口。默认是使用netty。这个插件的好处是可以对http接口进行一些权限的设置。

      脚本插件

      Python language Plugin (作者 elasticsearch 团队)

      简介:python脚本支持

      JavaScript language Plugin (作者 elasticsearch 团队)

      简介:javascript脚本支持

      Groovy lang Plugin (作者 elasticsearch 团队)

      简介:groovy脚本支持

      Clojure Language Plugin (作者 Kevin Downey)

      简介:clojure脚本支持

      站点插件(以网页形式展现)

      BigDesk Plugin (作者 Lukáš Vlček)

      简介:监控es状态的插件,推荐!

      Elasticsearch Head Plugin (作者 Ben Birch)

      简介:很方便对es进行各种操作的客户端。

      Paramedic Plugin (作者 Karel Minařík)

      简介:es监控插件

      SegmentSpy Plugin (作者 Zachary Tong)

      简介:查看es索引segment状态的插件

      Inquisitor Plugin (作者 Zachary Tong)

      简介:这个插件主要用来调试你的查询。

      其它插件

      Mapper Attachments Type plugin (作者 elasticsearch 团队)

      简介:附件类型插件,通过tika库把各种类型的文件格式解析成字符串。

      Hadoop Plugin (作者 elasticsearch team)

      简介:hadoop和elasticsearch的集成插件,可以通过hadoop的mapreduce算法来并行建立索引,同时支持cascading,hive和pig等框架。

      AWS Cloud Plugin (作者 elasticsearch 团队)

      简介:elasticsearch与amazon web services的集成。

      ElasticSearch Mock Solr Plugin (作者 Matt Weber)

      简介:elasticsearch的solr api接口。用了这个插件可以使用solr的api来调用es,直接用solrj就可以调用es。比较适用于从solr转es时暂时过度。

      Suggester Plugin (作者 Alexander Reelsen)

      简介:es 搜索提示功能插件,不过es0.9版本后自带了这个功能,

      ElasticSearch PartialUpdate Plugin (作者 Medcl)

      简介:elasticsearch的部分更新插件。

      ZooKeeper Discovery Plugin (作者 Sonian Inc.)

      简介:通过zookeeper管理集群的插件。通过这个插件,es的分布式架构和solrcloud相似。

      ElasticSearch Changes Plugin (作者 Thomas Peuss)

      简介:elasticsearch索引操作记录插件。通过这个插件可以查看用户对索引的增删改操作。

      ElasticSearch View Plugin (作者 Tanguy Leroux)

      简介:这个插件可以把es的文档以html,xml或text的方式显示出来,它也可以通过查询生成web页面。

      ElasticSearch New Relic Plugin (作者 Vinicius Carvalho)

      简介:elasticsearch和newrelic的集成插件。newrelica是一个性能监控工具。这个插件会把节点的状态数据传到newrelic的账号上。
      社区的编辑器好像不支持复制富文本信息,所以插件都没有链接,插件太多懒得一个个打链接了,想点地址的可以移步寒舍http://www.kailing.pub/article/index/arcid/87.html
        查看全部
      ElasticSearch的很多功能都是官方或第三方基于ElasticSearch的AbstractPlugin类实现的插件来提供的,所以,在里里记录下一些常用的及实用的插件地址,以备不时之需

      分词插件

      Combo Analysis Plugin (作者 Olivier Favre, Yakaz)

      简介:组合分词器,可以把多个分词器的结果组合在一起。

      Smart Chinese Analysis Plugin (作者 elasticsearch 团队)

      简介:lucene默认的中文分词器

      ICU Analysis plugin (作者 elasticsearch 团队)

      简介:lucene自带的ICU分词,ICU是一套稳定、成熟、功能强大、轻便易用和跨平台支持Unicode 的开发包。

      Stempel (Polish) Analysis plugin (作者 elasticsearch 团队)

      简介:法文分词器

      IK Analysis Plugin (作者 Medcl)

      简介:大名鼎鼎的ik分词,都懂的!

      Mmseg Analysis Plugin (作者 Medcl)

      简介:mmseg中文分词

      Hunspell Analysis Plugin (作者 Jörg Prante)

      简介:lucene自带的Hunspell模块

      Japanese (Kuromoji) Analysis plugin (作者 elasticsearch 团队).

      简介:日文分词器

      Japanese Analysis plugin (作者 suguru).

      简介:日文分词器

      Russian and English Morphological Analysis Plugin (作者 Igor Motov)

      简介:俄文英文分词器

      Pinyin Analysis Plugin (作者 Medcl)

      简介:拼音分词器

      String2Integer Analysis Plugin (作者 Medcl)

      简介:字符串转整型工具。主要用在facet这个功能上,如果facet的field的值是字符串的话,计算起来比较耗资源。可以把字符串映射成整型,对整型进行facet操作要比对字符串的快很多。

      同步插件

      CouchDB River Plugin (作者 elasticsearch 团队)

      简介:CouchDB和elasticsearch的同步插件

      Wikipedia River Plugin (作者 elasticsearch 团队)

      简介:wikipedia文件读取插件。wikipedia是维基百科的一个离线库,不定期发布最新数据,是以xml形式发布的。这个river读取这个文件来建索引。

      Twitter River Plugin (作者 elasticsearch 团队)

      简介:twitter的同步插件,可以同步你twitter上的微博。

      RabbitMQ River Plugin (作者 elasticsearch 团队)

      简介:rabbitmq同步插件,读取rabbitmq上的队列信息并索引。

      RSS River Plugin (作者 David Pilato)

      简介:定期索引指定一个或多个RSS源的数据。

      MongoDB River Plugin (作者 Richard Louapre)

      简介:mongodb同步插件,mongodb必须搭成副本集的模式,因为这个插件的原理是通过定期读取mongodb中的oplog来同步数据。

      Open Archives Initiative (OAI) River Plugin (作者 Jörg Prante)

      简介:可以索引oai数据提供者提供的数据。

      Sofa River Plugin (作者 adamlofts)

      简介:这个插件可以把多个CouchDB的数据库同步到同一个es索引中。

      JDBC River Plugin (作者 Jörg Prante)

      简介:关系型数据库的同步插件

      FileSystem River Plugin (作者 David Pilato)

      简介:本地文件系统文件同步插件,使用方法是指定一个本地目录路径,es会定期扫描索引该目录下的文件。

      LDAP River Plugin (作者 Tanguy Leroux)

      简介:索引LDAP目录下的文件数据。

      Dropbox River Plugin (作者 David Pilato)

      简介:索引dropbox网盘上的文件。通过oauth协议来调用dropbox上的api建索引。

      ActiveMQ River Plugin (作者 Dominik Dorn)

      简介:activemq队列的同步插件,和之前rabbitmq的类似

      Solr River Plugin (作者 Luca Cavanna)

      简介:solr同步插件,可以把solr里面的索引同步到es

      CSV River Plugin (作者 Martin Bednar)

      简介:通过指定目录地址来索引csv文件。

      数据传输插件

      Servlet transport (作者 elasticsearch 团队)

      简介:Servlet rest插件,通过servlet来封装rest接口。

      Memcached transport plugin (作者 elasticsearch 团队)

      简介:本插件可以通过memcached协议进行rest接口的调用。注意:这里不是使用memcache作为es的缓存。

      Thrift Transport (作者 elasticsearch 团队)

      简介:使用thrift进行数据传输。

      ZeroMQ transport layer plugin (作者 Tanguy Leroux)

      简介:使用zeromq进rest接口的调用。

      Jetty HTTP transport plugin (作者 Sonian Inc.)

      简介:使用jetty来提供http rest接口。默认是使用netty。这个插件的好处是可以对http接口进行一些权限的设置。

      脚本插件

      Python language Plugin (作者 elasticsearch 团队)

      简介:python脚本支持

      JavaScript language Plugin (作者 elasticsearch 团队)

      简介:javascript脚本支持

      Groovy lang Plugin (作者 elasticsearch 团队)

      简介:groovy脚本支持

      Clojure Language Plugin (作者 Kevin Downey)

      简介:clojure脚本支持

      站点插件(以网页形式展现)

      BigDesk Plugin (作者 Lukáš Vlček)

      简介:监控es状态的插件,推荐!

      Elasticsearch Head Plugin (作者 Ben Birch)

      简介:很方便对es进行各种操作的客户端。

      Paramedic Plugin (作者 Karel Minařík)

      简介:es监控插件

      SegmentSpy Plugin (作者 Zachary Tong)

      简介:查看es索引segment状态的插件

      Inquisitor Plugin (作者 Zachary Tong)

      简介:这个插件主要用来调试你的查询。

      其它插件

      Mapper Attachments Type plugin (作者 elasticsearch 团队)

      简介:附件类型插件,通过tika库把各种类型的文件格式解析成字符串。

      Hadoop Plugin (作者 elasticsearch team)

      简介:hadoop和elasticsearch的集成插件,可以通过hadoop的mapreduce算法来并行建立索引,同时支持cascading,hive和pig等框架。

      AWS Cloud Plugin (作者 elasticsearch 团队)

      简介:elasticsearch与amazon web services的集成。

      ElasticSearch Mock Solr Plugin (作者 Matt Weber)

      简介:elasticsearch的solr api接口。用了这个插件可以使用solr的api来调用es,直接用solrj就可以调用es。比较适用于从solr转es时暂时过度。

      Suggester Plugin (作者 Alexander Reelsen)

      简介:es 搜索提示功能插件,不过es0.9版本后自带了这个功能,

      ElasticSearch PartialUpdate Plugin (作者 Medcl)

      简介:elasticsearch的部分更新插件。

      ZooKeeper Discovery Plugin (作者 Sonian Inc.)

      简介:通过zookeeper管理集群的插件。通过这个插件,es的分布式架构和solrcloud相似。

      ElasticSearch Changes Plugin (作者 Thomas Peuss)

      简介:elasticsearch索引操作记录插件。通过这个插件可以查看用户对索引的增删改操作。

      ElasticSearch View Plugin (作者 Tanguy Leroux)

      简介:这个插件可以把es的文档以html,xml或text的方式显示出来,它也可以通过查询生成web页面。

      ElasticSearch New Relic Plugin (作者 Vinicius Carvalho)

      简介:elasticsearch和newrelic的集成插件。newrelica是一个性能监控工具。这个插件会把节点的状态数据传到newrelic的账号上。
      社区的编辑器好像不支持复制富文本信息,所以插件都没有链接,插件太多懒得一个个打链接了,想点地址的可以移步寒舍http://www.kailing.pub/article/index/arcid/87.html
       

      Shanghai Elastic Meetup启动啦!

      默认分类kinghack 发表了文章 • 5 个评论 • 2973 次浏览 • 2016-03-30 11:09 • 来自相关话题

      Shanghai Elastic Meetup

      时间:2016年5月7日 13:30

      地点:上海市徐汇区广元西路55号浩然科技大厦1808(交通大学内)

      报名链接:

      [Meetup](http://www.meetup.com/Shanghai ... 07915/)

      [微信](https://jinshuju.net/f/Ed5I5o)

      ## 《ES用于时间序列存储 - Hickwall监控报警平台简介》

      唐锐华  携程旅行网软件技术专家

      简介:
        
        
        随着携程业务的扩张,新应用不断涌现,基础监控和应用监控的需求迅猛增长,zabbix已经不堪负重。在调研了很多开源的解决方案之后发觉或多或少都存在不太满意的地方。
        所以在借鉴多种方案的基础上重新设计开发了一套监控告警系统。其中对比过多种现有存储方案之后我们选择了ES。这里和大家分享一下这个系统和ES用在在我们场景中的优缺点。

      提纲:

      * 为什么会有这个项目
      * 现有开源项目的调研
      * 项目的整体设计与其特点
      * ES在使用过程中碰到的问题

      ## 《ES在日志分析产品中的实践》

      简介:

      主要介绍如何在JAVA开发产品中使用ES,以及常用的ES JAVA接口,以及JAVA代码阅读的简单说明

      2010年进入深圳天源迪科从事运营商业务系统相关的开发工作,期间做过软件开发,需求分析师,架构师等职务,后面2006年进入江苏保旺达从事安全产品相关的研发。从毕业到工作十几年的时间大部分都在做和技术相关的工作,本人非常热爱技术,热爱开发,现任赛克蓝德公司技术总监,从事数据分析领域相关产品的研发,现在主要研发日志分析产品(SeciLog)。

      ## 《Hangout: 一个logstash indexer的替代方案》
      讲师简介:

      刘佳  携程旅行网软件技术专家

      简介:

      logstash以其丰富的插件功能,成为ELK技术栈中不可或缺的一个组件。 但目前版本的logstash主要由jruby实现,在处理日志的吞吐量方面不尽如人意。 hangout是一个类logsatsh的java实现,提供了logstash里常用的filter功能。 这里分享一下hangout的特性,实际生产环境的吞吐量以及多实例的管理方式。

      提纲:

      * 为何开发hangout   
      * 支持的filter
      * 与logsatsh性能对比
      * 影响吞吐量的主要参数及其含
      * 用mesos+marathon管理hangout
           查看全部
      Shanghai Elastic Meetup

      时间:2016年5月7日 13:30

      地点:上海市徐汇区广元西路55号浩然科技大厦1808(交通大学内)

      报名链接:

      [Meetup](http://www.meetup.com/Shanghai ... 07915/)

      [微信](https://jinshuju.net/f/Ed5I5o)

      ## 《ES用于时间序列存储 - Hickwall监控报警平台简介》

      唐锐华  携程旅行网软件技术专家

      简介:
        
        
        随着携程业务的扩张,新应用不断涌现,基础监控和应用监控的需求迅猛增长,zabbix已经不堪负重。在调研了很多开源的解决方案之后发觉或多或少都存在不太满意的地方。
        所以在借鉴多种方案的基础上重新设计开发了一套监控告警系统。其中对比过多种现有存储方案之后我们选择了ES。这里和大家分享一下这个系统和ES用在在我们场景中的优缺点。

      提纲:

      * 为什么会有这个项目
      * 现有开源项目的调研
      * 项目的整体设计与其特点
      * ES在使用过程中碰到的问题

      ## 《ES在日志分析产品中的实践》

      简介:

      主要介绍如何在JAVA开发产品中使用ES,以及常用的ES JAVA接口,以及JAVA代码阅读的简单说明

      2010年进入深圳天源迪科从事运营商业务系统相关的开发工作,期间做过软件开发,需求分析师,架构师等职务,后面2006年进入江苏保旺达从事安全产品相关的研发。从毕业到工作十几年的时间大部分都在做和技术相关的工作,本人非常热爱技术,热爱开发,现任赛克蓝德公司技术总监,从事数据分析领域相关产品的研发,现在主要研发日志分析产品(SeciLog)。

      ## 《Hangout: 一个logstash indexer的替代方案》
      讲师简介:

      刘佳  携程旅行网软件技术专家

      简介:

      logstash以其丰富的插件功能,成为ELK技术栈中不可或缺的一个组件。 但目前版本的logstash主要由jruby实现,在处理日志的吞吐量方面不尽如人意。 hangout是一个类logsatsh的java实现,提供了logstash里常用的filter功能。 这里分享一下hangout的特性,实际生产环境的吞吐量以及多实例的管理方式。

      提纲:

      * 为何开发hangout   
      * 支持的filter
      * 与logsatsh性能对比
      * 影响吞吐量的主要参数及其含
      * 用mesos+marathon管理hangout
          

      java爬虫爬取Elastic中文社区用作es测试数据

      Elasticsearchkl 发表了文章 • 1 个评论 • 2297 次浏览 • 2016-03-29 23:10 • 来自相关话题

      前言
      为了测试es的完美功能,笔者使用爬虫爬取了Elastic中文社区和CSDN的大量数据,作为测试之用,下面简单介绍一下折腾的过程
      认识 WebCollector
      WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。
      WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。2.x版本中集成了selenium,可以处理javascript生成的数据。
      官网地址:http://crawlscript.github.io/WebCollector/
      使用步骤
      导入jar依赖,笔者是maven项目,所有加入如下pom.xml依赖
      ps:笔者这里是使用的最新版的,maven仓库目前最新版的是2.09,所以使用最新的就自己下载打包吧 
      环境有了后,直接新建一个类继承BreadthCrawler类重新​visit方法,你的处理逻辑都在visit方法里面,下面楼主贴下我的代码
      ​爬取Elastic中文社区资源
      $(document).ready(function() {$('pre code').each(function(i, block) { hljs.highlightBlock( block); }); });/**
      * Created by 小陈 on 2016/3/29.
      */
      @Component
      public class ElasticCrawler extends BreadthCrawler {
      @Autowired
      IpaDao ipaDao;
      public ElasticCrawler() {
      super("crawl", true);
      /*start page*/
      this.addSeed("xxx");
      /*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
      this.addRegex("xxx");
      /*do not fetch jpg|png|gif*/
      this.addRegex("-.*\\.(jpg|png|gif).*");
      /*do not fetch url contains #*/
      // this.addRegex("-.*#.*");
      }
      @Override
      public void visit(Page page, CrawlDatums next) {
      String url = page.getUrl();
      String content="";
      try {
      content = ContentExtractor.getContentByUrl(url);
      }catch (Exception e){
      e.printStackTrace();
      }
      /*抽取标题*/
      String title=page.getDoc().title();
      System.out.println("-------------------->"+title);
      if(!title.isEmpty() && ! content.isEmpty()){
      Pa pa=new Pa(title,content);
      ipaDao.save(pa);//持久化到数据库
      }
      }爬取CSDN资源
      /**
      * @author kl by 2016/3/29
      * @boke www.kailing.pub
      */
      @Component
      public class CSDNCrawler extends BreadthCrawler {
      @Autowired
      IpaDao ipaDao;
      public CSDNCrawler() {
      super("crawl", true);
      /*start page*/
      this.addSeed("http://blog.csdn.net/.*");//添加种子地址
      /*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
      this.addRegex("http://blog.csdn.net/.*/article/details/.*");
      /*do not fetch jpg|png|gif*/
      this.addRegex("-.*\\.(jpg|png|gif).*");
      /*do not fetch url contains #*/
      // this.addRegex("-.*#.*");
      }
      @Override
      public void visit(Page page, CrawlDatums next) {
      String url = page.getUrl();
      String content="";
      try {
      content = ContentExtractor.getContentByUrl(url);
      }catch (Exception e){
      e.printStackTrace();
      }
      if (page.matchUrl("http://blog.csdn.net/.*/article/details/.*")) {
      String title = page.select("div[class=article_title]").first().text();
      String author = page.select("div[id=blog_userface]").first().text();//获取作者名
      System.out.println("title:" + title + "\tauthor:" + author);
      if(!title.isEmpty() && ! content.isEmpty()){
      Pa pa=new Pa(title,content);
      ipaDao.save(pa);
      }
      }
      }ps:Elastic中文社区的爬取规则和谐了,楼主是爱社区的,大家可以放心的爬CSDN吧,WebCollector功能很强大,爬虫的一个关键就是需要知道网站的url规则,有兴趣的可以研究​ 下,Elastic的数据不多,分吧钟就够了,CSDN爬了5,6分钟,没有做深度的爬,取了大概二三十万的数据样子,只取标题和正文 
       
      去我博客查看原文 http://www.kailing.pub/article/index/arcid/86.html
      下面是导入数据的截图










        查看全部
      前言
      为了测试es的完美功能,笔者使用爬虫爬取了Elastic中文社区和CSDN的大量数据,作为测试之用,下面简单介绍一下折腾的过程
      认识 WebCollector
      WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。
      WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。2.x版本中集成了selenium,可以处理javascript生成的数据。
      官网地址:http://crawlscript.github.io/WebCollector/
      使用步骤
      导入jar依赖,笔者是maven项目,所有加入如下pom.xml依赖
      ps:笔者这里是使用的最新版的,maven仓库目前最新版的是2.09,所以使用最新的就自己下载打包吧 
      环境有了后,直接新建一个类继承BreadthCrawler类重新​visit方法,你的处理逻辑都在visit方法里面,下面楼主贴下我的代码
      ​爬取Elastic中文社区资源
      /**
      * Created by 小陈 on 2016/3/29.
      */
      @Component
      public class ElasticCrawler extends BreadthCrawler {
      @Autowired
      IpaDao ipaDao;
      public ElasticCrawler() {
      super("crawl", true);
      /*start page*/
      this.addSeed("xxx");
      /*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
      this.addRegex("xxx");
      /*do not fetch jpg|png|gif*/
      this.addRegex("-.*\\.(jpg|png|gif).*");
      /*do not fetch url contains #*/
      // this.addRegex("-.*#.*");
      }
      @Override
      public void visit(Page page, CrawlDatums next) {
      String url = page.getUrl();
      String content="";
      try {
      content = ContentExtractor.getContentByUrl(url);
      }catch (Exception e){
      e.printStackTrace();
      }
      /*抽取标题*/
      String title=page.getDoc().title();
      System.out.println("-------------------->"+title);
      if(!title.isEmpty() && ! content.isEmpty()){
      Pa pa=new Pa(title,content);
      ipaDao.save(pa);//持久化到数据库
      }
      }
      爬取CSDN资源
      /**
      * @author kl by 2016/3/29
      * @boke www.kailing.pub
      */
      @Component
      public class CSDNCrawler extends BreadthCrawler {
      @Autowired
      IpaDao ipaDao;
      public CSDNCrawler() {
      super("crawl", true);
      /*start page*/
      this.addSeed("http://blog.csdn.net/.*");//添加种子地址
      /*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
      this.addRegex("http://blog.csdn.net/.*/article/details/.*");
      /*do not fetch jpg|png|gif*/
      this.addRegex("-.*\\.(jpg|png|gif).*");
      /*do not fetch url contains #*/
      // this.addRegex("-.*#.*");
      }
      @Override
      public void visit(Page page, CrawlDatums next) {
      String url = page.getUrl();
      String content="";
      try {
      content = ContentExtractor.getContentByUrl(url);
      }catch (Exception e){
      e.printStackTrace();
      }
      if (page.matchUrl("http://blog.csdn.net/.*/article/details/.*")) {
      String title = page.select("div[class=article_title]").first().text();
      String author = page.select("div[id=blog_userface]").first().text();//获取作者名
      System.out.println("title:" + title + "\tauthor:" + author);
      if(!title.isEmpty() && ! content.isEmpty()){
      Pa pa=new Pa(title,content);
      ipaDao.save(pa);
      }
      }
      }
      ps:Elastic中文社区的爬取规则和谐了,楼主是爱社区的,大家可以放心的爬CSDN吧,WebCollector功能很强大,爬虫的一个关键就是需要知道网站的url规则,有兴趣的可以研究​ 下,Elastic的数据不多,分吧钟就够了,CSDN爬了5,6分钟,没有做深度的爬,取了大概二三十万的数据样子,只取标题和正文 
       
      去我博客查看原文 http://www.kailing.pub/article/index/arcid/86.html
      下面是导入数据的截图

      QQ图片20160329221750.png


      QQ图片20160329221921.png

       

      java使用HTTP Rest client 客户端Jest连接操作es,功能很强大

      Elasticsearchkl 发表了文章 • 2 个评论 • 5094 次浏览 • 2016-03-28 23:30 • 来自相关话题

      前言

      在了解jest框架前,楼主一直尝试用官方的Elasticsearch java api连接es服务的,可是,不知何故,一直报如下的异常信息,谷歌了很久,都说是jvm版本不一致导致的问题,可我是本地测试的,jvm肯定是一致的,这个问题现在都木有解决,but,这怎么能阻止我探索es的脚步呢,so,让我发现了jest 这个框架   


      org.elasticsearch.transport.RemoteTransportException: Failed to deserialize exception response from stream Caused by: org.elasticsearch.transport.TransportSerializationException: Failed to deserialize exception response from stream
      我的测试代码是参考官方api实例的,官方api地址:Elasticsearch java api,代码如下:



      Client client = new TransportClient().addTransportAddress(new InetSocketTransportAddress("127.0.0.1", 9300)); QueryBuilder queryBuilder = QueryBuilders.termQuery("content", "搜"); SearchResponse searchResponse = client.prepareSearch("indexdata").setTypes("fulltext") .setQuery(queryBuilder) .execute() .actionGet(); SearchHits hits = searchResponse.getHits(); System.out.println("查询到记录数:" + hits.getTotalHits()); SearchHit[] searchHists = hits.getHits(); for(SearchHit sh : searchHists){ System.out.println("content:"+sh.getSource().get("content")); } client.close();
      如果有人知道怎么回事,告诉一下楼主吧,让楼主坑的明白,感激不尽了,我的es版本是2.2.0


      进入正题

      了解jest

      jest是一个基于 HTTP Rest 的连接es服务的api工具集,功能强大,能够使用es java api的查询语句,项目是开源的,github地址:https://github.com/searchbox-io/Jest




      我的测试用例

      分词器:ik,分词器地址:https://github.com/medcl/elasticsearch-analysis-ik ,es的很多功能都是基于插件提供的,es版本升级都2.2.0后,安装插件的方式不一样了,如果你安装ik分词插件有问题,请点击右上角的qq联系博主

      新建索引

      curl -XPUT http://localhost:9200/indexdata


      创建索引的mapping,指定分词器

      curl -XPOST http://localhost:9200/indexdata/fulltext/_mapping

      {
        "fulltext": {
          "_all": {
            "analyzer": "ik_max_word",
            "search_analyzer": "ik_max_word",
            "term_vector": "no",
            "store": "false"
          },
          "properties": {
            "content": {
              "type": "string",
              "store": "no",
              "term_vector": "with_positions_offsets",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word",
              "include_in_all": "true",
              "boost": 8
            },
            "description": {
              "type": "string",
              "store": "no",
              "term_vector": "with_positions_offsets",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word",
              "include_in_all": "true",
              "boost": 8
            },
            "title": {
              "type": "string",
              "store": "no",
              "term_vector": "with_positions_offsets",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word",
              "include_in_all": "true",
              "boost": 8
            },
            "keyword": {
              "type": "string",
              "store": "no",
              "term_vector": "with_positions_offsets",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word",
              "include_in_all": "true",
              "boost": 8
            }
          }
        }
      }

      mapping信息可以用head插件查看,如下


      导入数据和查询,看代码吧


      @RunWith(SpringJUnit4ClassRunner.class) @SpringApplicationConfiguration(classes = ElasticSearchTestApplication.class) public class JestTestApplicationTests { @Autowired private KlarticleDao klarticleDao; //得到JestClient实例 public JestClient getClient()throws Exception{ JestClientFactory factory = new JestClientFactory(); factory.setHttpClientConfig(new HttpClientConfig .Builder("http://127.0.0.1:9200&quot;) .multiThreaded(true) .build()); return factory.getObject(); } /** * 导入数据库数据到es * @throws Exception */ @Test public void contextLoads() throws Exception{ JestClient client=getClient(); Listlists=klarticleDao.findAll(); for(Klarticle k:lists){ Index index = new Index.Builder(k).index("indexdata").type("fulltext").id(k.getArcid()+"").build(); System.out.println("添加索引----》"+k.getTitle()); client.execute(index); } //批量新增的方式,效率更高 Bulk.Builder bulkBuilder = new Bulk.Builder(); for(Klarticle k:lists){ Index index = new Index.Builder(k).index("indexdata").type("fulltext").id(k.getArcid()+"").build(); bulkBuilder.addAction(index); } client.execute(bulkBuilder.build()); client.shutdownClient(); } //搜索测试 @Test public void JestSearchTest()throws Exception{ SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder(); searchSourceBuilder.query(QueryBuilders.matchQuery("content", "搜索")); Search search = new Search.Builder(searchSourceBuilder.toString()) // multiple index or types can be added. .addIndex("indexdata") .build(); JestClient client =getClient(); SearchResult result= client.execute(search); // List> hits = result.getHits(Klarticle.class); Listarticles = result.getSourceAsObjectList(Klarticle.class); for(Klarticle k:articles){ System.out.println("------->:"+k.getTitle()); } } }下面是依赖的jar,maven项目<!--jest依赖--> <dependency> <groupId>io.searchbox</groupId> <artifactId>jest</artifactId> <version>2.0.0</version> </dependency> <!--jest 日志依赖--> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.6.1</version> </dependency> <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch</artifactId> <version>2.2.0</version> </dependency> </dependencies>
      去我的博客查看原文:http://www.kailing.pub/article/index/arcid/84.html 查看全部
      前言

      在了解jest框架前,楼主一直尝试用官方的Elasticsearch java api连接es服务的,可是,不知何故,一直报如下的异常信息,谷歌了很久,都说是jvm版本不一致导致的问题,可我是本地测试的,jvm肯定是一致的,这个问题现在都木有解决,but,这怎么能阻止我探索es的脚步呢,so,让我发现了jest 这个框架   


      org.elasticsearch.transport.RemoteTransportException: Failed to deserialize exception response from stream Caused by: org.elasticsearch.transport.TransportSerializationException: Failed to deserialize exception response from stream
      我的测试代码是参考官方api实例的,官方api地址:Elasticsearch java api,代码如下:



      Client client = new TransportClient().addTransportAddress(new InetSocketTransportAddress("127.0.0.1", 9300)); QueryBuilder queryBuilder = QueryBuilders.termQuery("content", "搜"); SearchResponse searchResponse = client.prepareSearch("indexdata").setTypes("fulltext") .setQuery(queryBuilder) .execute() .actionGet(); SearchHits hits = searchResponse.getHits(); System.out.println("查询到记录数:" + hits.getTotalHits()); SearchHit[] searchHists = hits.getHits(); for(SearchHit sh : searchHists){ System.out.println("content:"+sh.getSource().get("content")); } client.close();
      如果有人知道怎么回事,告诉一下楼主吧,让楼主坑的明白,感激不尽了,我的es版本是2.2.0


      进入正题

      了解jest

      jest是一个基于 HTTP Rest 的连接es服务的api工具集,功能强大,能够使用es java api的查询语句,项目是开源的,github地址:https://github.com/searchbox-io/Jest




      我的测试用例

      分词器:ik,分词器地址:https://github.com/medcl/elasticsearch-analysis-ik ,es的很多功能都是基于插件提供的,es版本升级都2.2.0后,安装插件的方式不一样了,如果你安装ik分词插件有问题,请点击右上角的qq联系博主

      新建索引

      curl -XPUT http://localhost:9200/indexdata


      创建索引的mapping,指定分词器

      curl -XPOST http://localhost:9200/indexdata/fulltext/_mapping

      {
        "fulltext": {
          "_all": {
            "analyzer": "ik_max_word",
            "search_analyzer": "ik_max_word",
            "term_vector": "no",
            "store": "false"
          },
          "properties": {
            "content": {
              "type": "string",
              "store": "no",
              "term_vector": "with_positions_offsets",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word",
              "include_in_all": "true",
              "boost": 8
            },
            "description": {
              "type": "string",
              "store": "no",
              "term_vector": "with_positions_offsets",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word",
              "include_in_all": "true",
              "boost": 8
            },
            "title": {
              "type": "string",
              "store": "no",
              "term_vector": "with_positions_offsets",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word",
              "include_in_all": "true",
              "boost": 8
            },
            "keyword": {
              "type": "string",
              "store": "no",
              "term_vector": "with_positions_offsets",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word",
              "include_in_all": "true",
              "boost": 8
            }
          }
        }
      }

      mapping信息可以用head插件查看,如下


      导入数据和查询,看代码吧


      @RunWith(SpringJUnit4ClassRunner.class) @SpringApplicationConfiguration(classes = ElasticSearchTestApplication.class) public class JestTestApplicationTests { @Autowired private KlarticleDao klarticleDao; //得到JestClient实例 public JestClient getClient()throws Exception{ JestClientFactory factory = new JestClientFactory(); factory.setHttpClientConfig(new HttpClientConfig .Builder("http://127.0.0.1:9200&quot;) .multiThreaded(true) .build()); return factory.getObject(); } /** * 导入数据库数据到es * @throws Exception */ @Test public void contextLoads() throws Exception{ JestClient client=getClient(); Listlists=klarticleDao.findAll(); for(Klarticle k:lists){ Index index = new Index.Builder(k).index("indexdata").type("fulltext").id(k.getArcid()+"").build(); System.out.println("添加索引----》"+k.getTitle()); client.execute(index); } //批量新增的方式,效率更高 Bulk.Builder bulkBuilder = new Bulk.Builder(); for(Klarticle k:lists){ Index index = new Index.Builder(k).index("indexdata").type("fulltext").id(k.getArcid()+"").build(); bulkBuilder.addAction(index); } client.execute(bulkBuilder.build()); client.shutdownClient(); } //搜索测试 @Test public void JestSearchTest()throws Exception{ SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder(); searchSourceBuilder.query(QueryBuilders.matchQuery("content", "搜索")); Search search = new Search.Builder(searchSourceBuilder.toString()) // multiple index or types can be added. .addIndex("indexdata") .build(); JestClient client =getClient(); SearchResult result= client.execute(search); // List> hits = result.getHits(Klarticle.class); Listarticles = result.getSourceAsObjectList(Klarticle.class); for(Klarticle k:articles){ System.out.println("------->:"+k.getTitle()); } } }下面是依赖的jar,maven项目<!--jest依赖--> <dependency> <groupId>io.searchbox</groupId> <artifactId>jest</artifactId> <version>2.0.0</version> </dependency> <!--jest 日志依赖--> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.6.1</version> </dependency> <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch</artifactId> <version>2.2.0</version> </dependency> </dependencies>
      去我的博客查看原文:http://www.kailing.pub/article/index/arcid/84.html