kafka

kafka

logstash 消费kafka数据时,partition持续rebalancing

Logstashkennywu76 回复了问题 • 4 人关注 • 4 个回复 • 115 次浏览 • 2018-02-08 14:37 • 来自相关话题

找能在武汉培训 Kfaka的老师,给客户讲几天课,报酬私聊。

回复

求职招聘zhanxg_wh 发起了问题 • 1 人关注 • 0 个回复 • 240 次浏览 • 2018-01-02 10:01 • 来自相关话题

Kafka0.8之后,consumer信息从zk迁移走,如何拿到consumer的信息

回复

Kibanachenze 发起了问题 • 1 人关注 • 0 个回复 • 150 次浏览 • 2017-12-22 15:05 • 来自相关话题

大神帮忙看看!logstash取kafka日志出现数据乱窜,error的topic跑到data的topic里面去了

LogstashKevin_Yin 回复了问题 • 3 人关注 • 4 个回复 • 283 次浏览 • 2017-12-19 12:13 • 来自相关话题

logstash 不能监控采集到已存在的文件

Logstashledefe 回复了问题 • 3 人关注 • 2 个回复 • 877 次浏览 • 2017-10-24 16:38 • 来自相关话题

ELK-logstash报编码不兼容问题(CompatibilityError: incompatible encodings: ASCII-8BIT and UTF-8)

Logstashkennywu76 回复了问题 • 2 人关注 • 1 个回复 • 1074 次浏览 • 2017-09-27 17:33 • 来自相关话题

kafka批量插入问题

回复

默认分类疯狂的H3 发起了问题 • 1 人关注 • 0 个回复 • 325 次浏览 • 2017-09-06 15:29 • 来自相关话题

logstash消费kafka里面的数据出现了延时,怎么处理?

回复

LogstashBob_周 发起了问题 • 1 人关注 • 0 个回复 • 364 次浏览 • 2017-08-28 14:38 • 来自相关话题

【急聘】搜索推荐系统研发工程师 12-20K

求职招聘man429 发表了文章 • 0 个评论 • 759 次浏览 • 2017-07-26 15:38 • 来自相关话题

岗位职责: 1,负责个性化推荐系统的算法和架构研发, 实现在相关产品中的精准推荐; 2,负责产品、内容的推荐与其他场景的基础数据挖掘; 3,根据海量用户行为的分析和挖掘,构建用户画像、标签系统等。   任职要求: 1、两年以上相关工作经验; 2、有推荐系统或搜索排序研发经验, 熟悉常用的推荐算法,有实际算法调优经验; 3、熟悉Hadoop、HBase、Spark、Kafka等计算平台和工具; 4、掌握自然语言处理、协同推荐算法方面的基本知识; 5、良好的沟通和学习能力,团队合作精神,能独立承担工作。   加分项: 1,有大规模海量数据机器学习、数据挖掘、计算广告、搜索引擎相关经验; 2,有互联网电商行业数据经验。 易所试集团(Www.liketry.com),新三板上市公司,市值10亿左右,组建北京研发中心,13薪起,正常基数五险一金并提供商业保险(补充医疗+意外等),10天年假起,弹性工作制,薪资可根据能力商议。工作地点:北京望京SOHO,简历请发送至邮箱:hang.song@liketry.com。
岗位职责: 1,负责个性化推荐系统的算法和架构研发, 实现在相关产品中的精准推荐; 2,负责产品、内容的推荐与其他场景的基础数据挖掘; 3,根据海量用户行为的分析和挖掘,构建用户画像、标签系统等。   任职要求: 1、两年以上相关工作经验; 2、有推荐系统或搜索排序研发经验, 熟悉常用的推荐算法,有实际算法调优经验; 3、熟悉Hadoop、HBase、Spark、Kafka等计算平台和工具; 4、掌握自然语言处理、协同推荐算法方面的基本知识; 5、良好的沟通和学习能力,团队合作精神,能独立承担工作。   加分项: 1,有大规模海量数据机器学习、数据挖掘、计算广告、搜索引擎相关经验; 2,有互联网电商行业数据经验。 易所试集团(Www.liketry.com),新三板上市公司,市值10亿左右,组建北京研发中心,13薪起,正常基数五险一金并提供商业保险(补充医疗+意外等),10天年假起,弹性工作制,薪资可根据能力商议。工作地点:北京望京SOHO,简历请发送至邮箱:hang.song@liketry.com。

logstash怎样从elasticsearch中指定field,结合kafka处理返回一个新的field并存入原有的记录

Logstashmedcl 回复了问题 • 2 人关注 • 1 个回复 • 695 次浏览 • 2017-05-26 13:10 • 来自相关话题

Logstash5怎么读kafka0.8版本的数据?

LogstashBrickXu 回复了问题 • 2 人关注 • 1 个回复 • 2135 次浏览 • 2017-04-05 14:50 • 来自相关话题

logstash是怎样消费kafka的日志的,是不停的消费,还是查询一次,消费一次。

Logstashsdoheji1234 回复了问题 • 3 人关注 • 1 个回复 • 2755 次浏览 • 2017-04-05 14:11 • 来自相关话题

metricbeat监控kafka不出数据

回复

Beatsshj 发起了问题 • 1 人关注 • 0 个回复 • 844 次浏览 • 2017-03-27 16:39 • 来自相关话题

ELK日志回填问题

默认分类BirdZhang 回复了问题 • 2 人关注 • 2 个回复 • 2356 次浏览 • 2017-03-03 17:08 • 来自相关话题

logstash 消费kafka数据时,partition持续rebalancing

回复

Logstashkennywu76 回复了问题 • 4 人关注 • 4 个回复 • 115 次浏览 • 2018-02-08 14:37 • 来自相关话题

找能在武汉培训 Kfaka的老师,给客户讲几天课,报酬私聊。

回复

求职招聘zhanxg_wh 发起了问题 • 1 人关注 • 0 个回复 • 240 次浏览 • 2018-01-02 10:01 • 来自相关话题

Kafka0.8之后,consumer信息从zk迁移走,如何拿到consumer的信息

回复

Kibanachenze 发起了问题 • 1 人关注 • 0 个回复 • 150 次浏览 • 2017-12-22 15:05 • 来自相关话题

大神帮忙看看!logstash取kafka日志出现数据乱窜,error的topic跑到data的topic里面去了

回复

LogstashKevin_Yin 回复了问题 • 3 人关注 • 4 个回复 • 283 次浏览 • 2017-12-19 12:13 • 来自相关话题

logstash 不能监控采集到已存在的文件

回复

Logstashledefe 回复了问题 • 3 人关注 • 2 个回复 • 877 次浏览 • 2017-10-24 16:38 • 来自相关话题

ELK-logstash报编码不兼容问题(CompatibilityError: incompatible encodings: ASCII-8BIT and UTF-8)

回复

Logstashkennywu76 回复了问题 • 2 人关注 • 1 个回复 • 1074 次浏览 • 2017-09-27 17:33 • 来自相关话题

kafka批量插入问题

回复

默认分类疯狂的H3 发起了问题 • 1 人关注 • 0 个回复 • 325 次浏览 • 2017-09-06 15:29 • 来自相关话题

logstash消费kafka里面的数据出现了延时,怎么处理?

回复

LogstashBob_周 发起了问题 • 1 人关注 • 0 个回复 • 364 次浏览 • 2017-08-28 14:38 • 来自相关话题

logstash怎样从elasticsearch中指定field,结合kafka处理返回一个新的field并存入原有的记录

回复

Logstashmedcl 回复了问题 • 2 人关注 • 1 个回复 • 695 次浏览 • 2017-05-26 13:10 • 来自相关话题

Logstash5怎么读kafka0.8版本的数据?

回复

LogstashBrickXu 回复了问题 • 2 人关注 • 1 个回复 • 2135 次浏览 • 2017-04-05 14:50 • 来自相关话题

logstash是怎样消费kafka的日志的,是不停的消费,还是查询一次,消费一次。

回复

Logstashsdoheji1234 回复了问题 • 3 人关注 • 1 个回复 • 2755 次浏览 • 2017-04-05 14:11 • 来自相关话题

metricbeat监控kafka不出数据

回复

Beatsshj 发起了问题 • 1 人关注 • 0 个回复 • 844 次浏览 • 2017-03-27 16:39 • 来自相关话题

ELK日志回填问题

回复

默认分类BirdZhang 回复了问题 • 2 人关注 • 2 个回复 • 2356 次浏览 • 2017-03-03 17:08 • 来自相关话题

Filebeat+kafka怎样保证传输的安全,有没有加密措施?

回复

Beatsleighton_buaa 回复了问题 • 2 人关注 • 1 个回复 • 2460 次浏览 • 2017-03-01 09:51 • 来自相关话题

【急聘】搜索推荐系统研发工程师 12-20K

求职招聘man429 发表了文章 • 0 个评论 • 759 次浏览 • 2017-07-26 15:38 • 来自相关话题

岗位职责: 1,负责个性化推荐系统的算法和架构研发, 实现在相关产品中的精准推荐; 2,负责产品、内容的推荐与其他场景的基础数据挖掘; 3,根据海量用户行为的分析和挖掘,构建用户画像、标签系统等。   任职要求: 1、两年以上相关工作经验; 2、有推荐系统或搜索排序研发经验, 熟悉常用的推荐算法,有实际算法调优经验; 3、熟悉Hadoop、HBase、Spark、Kafka等计算平台和工具; 4、掌握自然语言处理、协同推荐算法方面的基本知识; 5、良好的沟通和学习能力,团队合作精神,能独立承担工作。   加分项: 1,有大规模海量数据机器学习、数据挖掘、计算广告、搜索引擎相关经验; 2,有互联网电商行业数据经验。 易所试集团(Www.liketry.com),新三板上市公司,市值10亿左右,组建北京研发中心,13薪起,正常基数五险一金并提供商业保险(补充医疗+意外等),10天年假起,弹性工作制,薪资可根据能力商议。工作地点:北京望京SOHO,简历请发送至邮箱:hang.song@liketry.com。
岗位职责: 1,负责个性化推荐系统的算法和架构研发, 实现在相关产品中的精准推荐; 2,负责产品、内容的推荐与其他场景的基础数据挖掘; 3,根据海量用户行为的分析和挖掘,构建用户画像、标签系统等。   任职要求: 1、两年以上相关工作经验; 2、有推荐系统或搜索排序研发经验, 熟悉常用的推荐算法,有实际算法调优经验; 3、熟悉Hadoop、HBase、Spark、Kafka等计算平台和工具; 4、掌握自然语言处理、协同推荐算法方面的基本知识; 5、良好的沟通和学习能力,团队合作精神,能独立承担工作。   加分项: 1,有大规模海量数据机器学习、数据挖掘、计算广告、搜索引擎相关经验; 2,有互联网电商行业数据经验。 易所试集团(Www.liketry.com),新三板上市公司,市值10亿左右,组建北京研发中心,13薪起,正常基数五险一金并提供商业保险(补充医疗+意外等),10天年假起,弹性工作制,薪资可根据能力商议。工作地点:北京望京SOHO,简历请发送至邮箱:hang.song@liketry.com。

Day7: hangout 替代 logstash-input-kafka

Advent三斗室 发表了文章 • 2 个评论 • 5206 次浏览 • 2015-12-08 00:54 • 来自相关话题

用 Logstash 接收 Kafka 里的业务日志再写入 Elasticsearch 已经成为一个常见的选择。但是大多数人随后就会碰到一个问题:logstash-input-kafka 的性能上不去! 这个问题,主要是由于 Logstash 用 JRuby 实现,所以数据从 Kafka 下来到最后流转进 Logstash 里,要经过四五次 Ruby 和 Java 之间的数据结构转换,大大浪费和消耗了 CPU 资源。作为优化,我们可以通过修改默认的 logstash-input-kafka 的 codec 配置为 line,把 Jrjackson 处理流程挪到 logstash-filter-json 里多线程处理,但是也只能提高一倍性能而已。 Logstash 开发组目前也在实现纯 Java 版的 logstash-core-event,但是最终能提高多少,也是未知数。 那么在 Logstash 性能提上去之前,围绕 Kafka 还有什么办法能高效又不失灵活的做到数据处理并写入 Elasticsearch 呢?今天给大家推荐一下携程网开源的 hangout。 hangout 采用 YAML 格式配置语法,跟 Elasticsearch 一样,省去了 Logstash 解析 DSL 的复杂度。下面一段配置是 repo 中自带的 example 示例:
inputs:
  - Kafka:
    codec: plain
    encoding: UTF8 # defaut UTF8
    topic: 
      app: 2
    consumer_settings:
      group.id: hangout
      zookeeper.connect: 192.168.1.200:2181
      auto.commit.interval.ms: "1000"
      socket.receive.buffer.bytes: "1048576"
      fetch.message.max.bytes: "1048576"
      num.consumer.fetchers: "4"
  - Kafka:
    codec: json
    topic: 
      web: 1
    consumer_settings:
      group.id: hangout
      zookeeper.connect: 192.168.1.201:2181
      auto.commit.interval.ms: "5000"

filters:
  - Grok:
    match:
      - '^(?<logtime>\S+) (?<user>.+) (-|(?<level>\w+)) %{DATA:msg}$'
    remove_fields: ['message']
  - Add:
    fields:
      test: 'abcd'
    if:
      - '<#if message??>true</#if>'
      - '<#if message?contains("liu")>true<#elseif message?contains("warn")>true</#if>'
  - Date:
    src: logtime
    formats:
      - 'ISO8601'
    remove_fields: ['logtime']
  - Lowercase:
    fields: ['user']
  - Add:
    fields:
      me: 'I am ${user}'
  - Remove:
    fields:
      - logtime
  - Trim:
    fields:
      - user
  - Rename:
    fields:
      me: he
      user: she
  - Gsub:
    fields:
      she: ['c','CCC']
      he: ['(^\w+)|(\w+$)','XXX']
  - Translate:
    source: user
    target: nick
    dictionary_path: /tmp/app.dic
  - KV:
    source: msg
    target: kv
    field_split: ' '
    value_split: '='
    trim: '\t\"'
    trimkey: '\"'
    include_keys: ["a","b","xyz","12"]
    exclude_keys: ["b","c"] # b in excluded
    tag_on_failure: "KVfail"
    remove_fields: ['msg']
  - Convert:
    fields:
      cs_bytes: integer
      time_taken: float
  - URLDecode:
    fields: ["query1","query2"]

outputs:
  - Stdout:
    if:
      - '<#if user=="childe">true</#if>'
  - Elasticsearch:
    cluster: hangoutcluster
    hosts:
      - 192.168.1.200
    index: 'hangout-%{user}-%{+YYYY.MM.dd}'
    index_type: logs # default logs
    bulk_actions: 20000 #default 20000
    bulk_size: 15 # default 15 MB
    flush_interval: 10 # default 10 seconds
    concurrent_requests: 0 # default 0, concurrent_requests设置成大于0的数, 意思着多线程处理, 以我应用的经验,还有是一定OOM风险的,强烈建议设置为0
  - Kafka:
    broker_list: 192.168.1.200:9092
    topic: test2
其 pipeline 设计和 Logstash 不同的是:整个 filter 和 output 流程,都在 Kafka 的 consumer 线程中完成。所以,并发线程数完全是有 Kafka 的 partitions 设置来控制的。 实际运行下来,hangout 比 Logstash 确实在处理能力,尤其是 CPU 资源消耗方面,性价比要高出很多。 想了解更全面的 ELK Stack 知识和细节,欢迎购买我的《ELK Stack权威指南》,也欢迎加 QQ 群:315428175 哟。