使用 dmesg 来查看一些硬件或驱动程序的信息或问题。

从hive抽数到es,5亿条数据bulk导入比较慢,有没有什么其他的优化方式?

Elasticsearch | 作者 kimichen123 | 发布于2017年11月08日 | 阅读数:7650


暂时只改了这几个参数,请问还有一些其他的办法么和建议么 ,文档内容不大,只有四五个字段。
"number_of_replicas" : 0
 "_all": { "enabled": false }
"refresh_interval": -1 
已邀请:

kimichen123

赞同来自: wenhe

之前没时间详细描述,主要描述:
公司封装的抽数任务,20个线程同时往es写,每次取10000条,集群八个数据节点,4个网关,每个数据节点1t存储,队列为0,集群负载也不高,现在tps是1w左右,暂时方案只能多个任务同时写,想知道有没有其他的经验能把写入tps高一些

bjfk2006

赞同来自: kimichen123

我的集群从hive导数据到ES,20亿100个字段左右耗时120分钟,集群18个节点

novia - 1&0

赞同来自:

建议提供下集群规模以及目前的效率,看看是否还能提升

laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net

赞同来自:

建议查看并修改下:队列数,线程数

laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net

赞同来自:

建议查看并修改下:队列数,线程数

bjfk2006

赞同来自:

"index.merge.scheduler.max_thread_count": "12",
"index.translog.durability": "async"
这两个动态参数修改对写入也是有很大提高
thread_pool.bulk.queue_size放大也是非常有效,不过要依据节点的内存来设置

要回复问题请先登录注册