不要急,总有办法的

Spark stream savetoES 到瓶颈?

Elasticsearch | 作者 artomu | 发布于2017年08月19日 | 阅读数:3823

一、目前框架采用 kafka --->  sparkStream  --> ES 的方式将数据实时写入es.
 
二、目前单集群的规模:
      硬件配置: 20台物理(8C,128G ,16T(普通磁盘)配置)
      软件配置: elasticsearch单集群: 40数据节点,分配10个master节点, 20个主分片,2个副本。 单个索引的大小平均:1.7T,    每个分片的大小:50G 
 
     目前运行看来,出现问题,1:该单集群与硬件的配备,没有达到预想的写入量。 目前:每一分钟的batch情况(分配:32个cpu, 3G的内存給这个长任务):
Input Size:   5760000 records   Scheduling Delay :  8.0 min    Processing Time 1.3 min     Total Delay   9.4 min
 
2、请问一下,sparkStream  saveto ES  , 还可以从哪些地方优化?
8C5135CF-55EE-489D-B7FB-E8DC90C772A6.png 861FD1BE-F6D2-4A00-B4C6-7E9818AB0BFB.png
已邀请:

rockybean - Elastic Certified Engineer, ElasticStack Fans,公众号:ElasticTalk

赞同来自:

看完还没看懂你的瓶颈到底是在spark还是es?没有给出具体数据啊
比如es现在写入性能如何?Index Rate是怎样的?写入队列有无 reject 的情况?
 
第一步还是先确定是要优化spark还是es

要回复问题请先登录注册