kafka

kafka

filebeat到logstash之间加一层Kafka后的日志格式问题

Logstashrockybean 回复了问题 • 2 人关注 • 1 个回复 • 74 次浏览 • 3 天前 • 来自相关话题

kafka manager 中的Brokers skew 什么含义啊?

回复

开源项目sterne vencel 回复了问题 • 1 人关注 • 2 个回复 • 101 次浏览 • 2018-06-25 12:21 • 来自相关话题

logstash往kafka里同步数据的时候kafka经常超时,然后logstash会停止

回复

Logstashaoliao_paopao 发起了问题 • 1 人关注 • 0 个回复 • 225 次浏览 • 2018-05-30 14:50 • 来自相关话题

filebeat->kafka没反应。

Logstashrockybean 回复了问题 • 3 人关注 • 2 个回复 • 272 次浏览 • 2018-05-25 15:14 • 来自相关话题

kafka扩分区对集群的影响???

回复

默认分类micheal 发起了问题 • 1 人关注 • 0 个回复 • 187 次浏览 • 2018-05-21 17:51 • 来自相关话题

logstash6.x input是kafka output是es %{[@metadata][kafka][topic]}不好用

回复

Logstashyaogang732 回复了问题 • 1 人关注 • 1 个回复 • 350 次浏览 • 2018-05-14 16:24 • 来自相关话题

用logstash读取kafka里的数据怎么能从头开始

Logstashrockybean 回复了问题 • 2 人关注 • 1 个回复 • 353 次浏览 • 2018-05-14 12:20 • 来自相关话题

metricbeat监控kafka不出数据

Beatsmedcl 回复了问题 • 2 人关注 • 1 个回复 • 1243 次浏览 • 2018-05-05 21:10 • 来自相关话题

新的kafka集群监控系统使用golang开发

Elasticsearchkppotato 发表了文章 • 0 个评论 • 263 次浏览 • 2018-05-04 17:04 • 来自相关话题

开源地址:https://github.com/kppotato/kafka_monitor   项目使用:golang开发,数据库:prometheus 图形:grafana
开源地址:https://github.com/kppotato/kafka_monitor   项目使用:golang开发,数据库:prometheus 图形:grafana

logstash 同步kafka的时候能不能将kafka里的json格式化

Logstashtypuc 回复了问题 • 3 人关注 • 2 个回复 • 262 次浏览 • 2018-04-27 21:33 • 来自相关话题

各位做过 将 mysql表导入到 kafka 中吗, 然后从kafka 中导入到es 中, 有什么方案吗?

Elasticsearchclean 回复了问题 • 4 人关注 • 4 个回复 • 481 次浏览 • 2018-04-04 10:10 • 来自相关话题

数据库实现类似kafka的消息服务,offset的实现方式有什么问题?

回复

默认分类jieWang0 发起了问题 • 1 人关注 • 0 个回复 • 191 次浏览 • 2018-04-03 19:41 • 来自相关话题

找能在武汉培训 Kfaka的老师,给客户讲几天课,报酬私聊。

求职招聘lizhitao 回复了问题 • 2 人关注 • 1 个回复 • 683 次浏览 • 2018-04-05 11:04 • 来自相关话题

kafka 输出接口的疑问

回复

开源项目chen31577 发起了问题 • 1 人关注 • 0 个回复 • 205 次浏览 • 2018-03-22 11:08 • 来自相关话题

filebeat到logstash之间加一层Kafka后的日志格式问题

回复

Logstashrockybean 回复了问题 • 2 人关注 • 1 个回复 • 74 次浏览 • 3 天前 • 来自相关话题

kafka manager 中的Brokers skew 什么含义啊?

回复

开源项目sterne vencel 回复了问题 • 1 人关注 • 2 个回复 • 101 次浏览 • 2018-06-25 12:21 • 来自相关话题

logstash往kafka里同步数据的时候kafka经常超时,然后logstash会停止

回复

Logstashaoliao_paopao 发起了问题 • 1 人关注 • 0 个回复 • 225 次浏览 • 2018-05-30 14:50 • 来自相关话题

filebeat->kafka没反应。

回复

Logstashrockybean 回复了问题 • 3 人关注 • 2 个回复 • 272 次浏览 • 2018-05-25 15:14 • 来自相关话题

kafka扩分区对集群的影响???

回复

默认分类micheal 发起了问题 • 1 人关注 • 0 个回复 • 187 次浏览 • 2018-05-21 17:51 • 来自相关话题

logstash6.x input是kafka output是es %{[@metadata][kafka][topic]}不好用

回复

Logstashyaogang732 回复了问题 • 1 人关注 • 1 个回复 • 350 次浏览 • 2018-05-14 16:24 • 来自相关话题

用logstash读取kafka里的数据怎么能从头开始

回复

Logstashrockybean 回复了问题 • 2 人关注 • 1 个回复 • 353 次浏览 • 2018-05-14 12:20 • 来自相关话题

metricbeat监控kafka不出数据

回复

Beatsmedcl 回复了问题 • 2 人关注 • 1 个回复 • 1243 次浏览 • 2018-05-05 21:10 • 来自相关话题

logstash 同步kafka的时候能不能将kafka里的json格式化

回复

Logstashtypuc 回复了问题 • 3 人关注 • 2 个回复 • 262 次浏览 • 2018-04-27 21:33 • 来自相关话题

各位做过 将 mysql表导入到 kafka 中吗, 然后从kafka 中导入到es 中, 有什么方案吗?

回复

Elasticsearchclean 回复了问题 • 4 人关注 • 4 个回复 • 481 次浏览 • 2018-04-04 10:10 • 来自相关话题

数据库实现类似kafka的消息服务,offset的实现方式有什么问题?

回复

默认分类jieWang0 发起了问题 • 1 人关注 • 0 个回复 • 191 次浏览 • 2018-04-03 19:41 • 来自相关话题

找能在武汉培训 Kfaka的老师,给客户讲几天课,报酬私聊。

回复

求职招聘lizhitao 回复了问题 • 2 人关注 • 1 个回复 • 683 次浏览 • 2018-04-05 11:04 • 来自相关话题

kafka 输出接口的疑问

回复

开源项目chen31577 发起了问题 • 1 人关注 • 0 个回复 • 205 次浏览 • 2018-03-22 11:08 • 来自相关话题

logstash 消费kafka数据时,partition持续rebalancing

回复

Logstashtaogger 回复了问题 • 6 人关注 • 6 个回复 • 1090 次浏览 • 2018-03-18 23:04 • 来自相关话题

新的kafka集群监控系统使用golang开发

Elasticsearchkppotato 发表了文章 • 0 个评论 • 263 次浏览 • 2018-05-04 17:04 • 来自相关话题

开源地址:https://github.com/kppotato/kafka_monitor   项目使用:golang开发,数据库:prometheus 图形:grafana
开源地址:https://github.com/kppotato/kafka_monitor   项目使用:golang开发,数据库:prometheus 图形:grafana

【急聘】搜索推荐系统研发工程师 12-20K

求职招聘man429 发表了文章 • 0 个评论 • 949 次浏览 • 2017-07-26 15:38 • 来自相关话题

岗位职责: 1,负责个性化推荐系统的算法和架构研发, 实现在相关产品中的精准推荐; 2,负责产品、内容的推荐与其他场景的基础数据挖掘; 3,根据海量用户行为的分析和挖掘,构建用户画像、标签系统等。   任职要求: 1、两年以上相关工作经验; 2、有推荐系统或搜索排序研发经验, 熟悉常用的推荐算法,有实际算法调优经验; 3、熟悉Hadoop、HBase、Spark、Kafka等计算平台和工具; 4、掌握自然语言处理、协同推荐算法方面的基本知识; 5、良好的沟通和学习能力,团队合作精神,能独立承担工作。   加分项: 1,有大规模海量数据机器学习、数据挖掘、计算广告、搜索引擎相关经验; 2,有互联网电商行业数据经验。 易所试集团(Www.liketry.com),新三板上市公司,市值10亿左右,组建北京研发中心,13薪起,正常基数五险一金并提供商业保险(补充医疗+意外等),10天年假起,弹性工作制,薪资可根据能力商议。工作地点:北京望京SOHO,简历请发送至邮箱:hang.song@liketry.com。
岗位职责: 1,负责个性化推荐系统的算法和架构研发, 实现在相关产品中的精准推荐; 2,负责产品、内容的推荐与其他场景的基础数据挖掘; 3,根据海量用户行为的分析和挖掘,构建用户画像、标签系统等。   任职要求: 1、两年以上相关工作经验; 2、有推荐系统或搜索排序研发经验, 熟悉常用的推荐算法,有实际算法调优经验; 3、熟悉Hadoop、HBase、Spark、Kafka等计算平台和工具; 4、掌握自然语言处理、协同推荐算法方面的基本知识; 5、良好的沟通和学习能力,团队合作精神,能独立承担工作。   加分项: 1,有大规模海量数据机器学习、数据挖掘、计算广告、搜索引擎相关经验; 2,有互联网电商行业数据经验。 易所试集团(Www.liketry.com),新三板上市公司,市值10亿左右,组建北京研发中心,13薪起,正常基数五险一金并提供商业保险(补充医疗+意外等),10天年假起,弹性工作制,薪资可根据能力商议。工作地点:北京望京SOHO,简历请发送至邮箱:hang.song@liketry.com。

Day7: hangout 替代 logstash-input-kafka

Advent三斗室 发表了文章 • 2 个评论 • 5922 次浏览 • 2015-12-08 00:54 • 来自相关话题

用 Logstash 接收 Kafka 里的业务日志再写入 Elasticsearch 已经成为一个常见的选择。但是大多数人随后就会碰到一个问题:logstash-input-kafka 的性能上不去! 这个问题,主要是由于 Logstash 用 JRuby 实现,所以数据从 Kafka 下来到最后流转进 Logstash 里,要经过四五次 Ruby 和 Java 之间的数据结构转换,大大浪费和消耗了 CPU 资源。作为优化,我们可以通过修改默认的 logstash-input-kafka 的 codec 配置为 line,把 Jrjackson 处理流程挪到 logstash-filter-json 里多线程处理,但是也只能提高一倍性能而已。 Logstash 开发组目前也在实现纯 Java 版的 logstash-core-event,但是最终能提高多少,也是未知数。 那么在 Logstash 性能提上去之前,围绕 Kafka 还有什么办法能高效又不失灵活的做到数据处理并写入 Elasticsearch 呢?今天给大家推荐一下携程网开源的 hangout。 hangout 采用 YAML 格式配置语法,跟 Elasticsearch 一样,省去了 Logstash 解析 DSL 的复杂度。下面一段配置是 repo 中自带的 example 示例:
inputs:
  - Kafka:
    codec: plain
    encoding: UTF8 # defaut UTF8
    topic: 
      app: 2
    consumer_settings:
      group.id: hangout
      zookeeper.connect: 192.168.1.200:2181
      auto.commit.interval.ms: "1000"
      socket.receive.buffer.bytes: "1048576"
      fetch.message.max.bytes: "1048576"
      num.consumer.fetchers: "4"
  - Kafka:
    codec: json
    topic: 
      web: 1
    consumer_settings:
      group.id: hangout
      zookeeper.connect: 192.168.1.201:2181
      auto.commit.interval.ms: "5000"

filters:
  - Grok:
    match:
      - '^(?<logtime>\S+) (?<user>.+) (-|(?<level>\w+)) %{DATA:msg}$'
    remove_fields: ['message']
  - Add:
    fields:
      test: 'abcd'
    if:
      - '<#if message??>true</#if>'
      - '<#if message?contains("liu")>true<#elseif message?contains("warn")>true</#if>'
  - Date:
    src: logtime
    formats:
      - 'ISO8601'
    remove_fields: ['logtime']
  - Lowercase:
    fields: ['user']
  - Add:
    fields:
      me: 'I am ${user}'
  - Remove:
    fields:
      - logtime
  - Trim:
    fields:
      - user
  - Rename:
    fields:
      me: he
      user: she
  - Gsub:
    fields:
      she: ['c','CCC']
      he: ['(^\w+)|(\w+$)','XXX']
  - Translate:
    source: user
    target: nick
    dictionary_path: /tmp/app.dic
  - KV:
    source: msg
    target: kv
    field_split: ' '
    value_split: '='
    trim: '\t\"'
    trimkey: '\"'
    include_keys: ["a","b","xyz","12"]
    exclude_keys: ["b","c"] # b in excluded
    tag_on_failure: "KVfail"
    remove_fields: ['msg']
  - Convert:
    fields:
      cs_bytes: integer
      time_taken: float
  - URLDecode:
    fields: ["query1","query2"]

outputs:
  - Stdout:
    if:
      - '<#if user=="childe">true</#if>'
  - Elasticsearch:
    cluster: hangoutcluster
    hosts:
      - 192.168.1.200
    index: 'hangout-%{user}-%{+YYYY.MM.dd}'
    index_type: logs # default logs
    bulk_actions: 20000 #default 20000
    bulk_size: 15 # default 15 MB
    flush_interval: 10 # default 10 seconds
    concurrent_requests: 0 # default 0, concurrent_requests设置成大于0的数, 意思着多线程处理, 以我应用的经验,还有是一定OOM风险的,强烈建议设置为0
  - Kafka:
    broker_list: 192.168.1.200:9092
    topic: test2
其 pipeline 设计和 Logstash 不同的是:整个 filter 和 output 流程,都在 Kafka 的 consumer 线程中完成。所以,并发线程数完全是有 Kafka 的 partitions 设置来控制的。 实际运行下来,hangout 比 Logstash 确实在处理能力,尤其是 CPU 资源消耗方面,性价比要高出很多。 想了解更全面的 ELK Stack 知识和细节,欢迎购买我的《ELK Stack权威指南》,也欢迎加 QQ 群:315428175 哟。