你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

从hive抽数到es，5亿条数据bulk导入比较慢，有没有什么其他的优化方式？

Elasticsearch | 作者 kimichen123 | 发布于2017年11月08日 | 阅读数：7198

暂时只改了这几个参数，请问还有一些其他的办法么和建议么，文档内容不大，只有四五个字段。
"number_of_replicas" : 0
"_all": { "enabled": false }
"refresh_interval": -1

6 个回复

kimichen123

赞同来自: wenhe

之前没时间详细描述，主要描述：
公司封装的抽数任务，20个线程同时往es写，每次取10000条，集群八个数据节点，4个网关，每个数据节点1t存储，队列为0，集群负载也不高，现在tps是1w左右，暂时方案只能多个任务同时写，想知道有没有其他的经验能把写入tps高一些

bjfk2006

赞同来自: kimichen123

我的集群从hive导数据到ES，20亿100个字段左右耗时120分钟，集群18个节点

novia - 1&0

建议提供下集群规模以及目前的效率，看看是否还能提升

laoyang360 - 《一本书讲透Elasticsearch》作者，Elastic认证工程师 [死磕Elasitcsearch]知识星球地址：http://t.cn/RmwM3N9；微信公众号：铭毅天下; 博客：https://elastic.blog.csdn.net

建议查看并修改下：队列数，线程数

bjfk2006

"index.merge.scheduler.max_thread_count": "12",
"index.translog.durability": "async"
这两个动态参数修改对写入也是有很大提高
thread_pool.bulk.queue_size放大也是非常有效，不过要依据节点的内存来设置

要回复问题请先登录或注册

从hive抽数到es，5亿条数据bulk导入比较慢，有没有什么其他的优化方式？

6 个回复

发起人

相关问题

问题状态

从hive抽数到es，5亿条数据bulk导入比较慢，有没有什么其他的优化方式？

与内容相关的链接

6 个回复

发起人

相关问题

问题状态