高峰只对攀登它而不是仰望它的人来说才有真正意义。

TB级别的200多亿数据灌库应该如何做

匿名 | 发布于2017年11月14日 | 阅读数:2177

刚接触es,请大神们指教,
 我有5个节点, 用python的mapreduce进行灌库,发现rate 只能最多5万/s,请问怎么提高灌库效率,我想提高至少50倍效率
 
map并发300就报错了,thread_count 大于2 也报错
 
if len(actions) == 1000:
# helper批量导入
    for i in helpers.parallel_bulk(es, actions, thread_count=1):
        pass
 
请问下我该修改什么参数或者增加节点,或者其他api,或者不用mr用其他方式, 才能提高效率
已邀请:

要回复问题请先登录注册