TB级别的200多亿数据灌库应该如何做
匿名 | 发布于2017年11月14日 | 阅读数:4038
刚接触es,请大神们指教,
我有5个节点, 用python的mapreduce进行灌库,发现rate 只能最多5万/s,请问怎么提高灌库效率,我想提高至少50倍效率
map并发300就报错了,thread_count 大于2 也报错
if len(actions) == 1000:
# helper批量导入
for i in helpers.parallel_bulk(es, actions, thread_count=1):
pass
请问下我该修改什么参数或者增加节点,或者其他api,或者不用mr用其他方式, 才能提高效率
我有5个节点, 用python的mapreduce进行灌库,发现rate 只能最多5万/s,请问怎么提高灌库效率,我想提高至少50倍效率
map并发300就报错了,thread_count 大于2 也报错
if len(actions) == 1000:
# helper批量导入
for i in helpers.parallel_bulk(es, actions, thread_count=1):
pass
请问下我该修改什么参数或者增加节点,或者其他api,或者不用mr用其他方式, 才能提高效率
0 个回复