有没有大佬做过基于elasticsearch的PB级别的实时日志查询系统呢,想请教请教优化经验和数据导入

Elasticsearch | 作者 kakashimeng | 发布于2019年08月09日 | 阅读数:277

现在要做一个PB级别的日志查询系统,想看看有没有大佬有数据量比较大的基于es查询的经验,现在已有系统感觉已经到瓶颈了,es太吃内存了,想知道es有没有基于源码改动可以优化数据导入效率还有内存使用减少的方式,我这边导入es是用的bulk,现在到瓶颈了,球大佬指导
已邀请:

novia - 1&0

赞同来自:

代码级别的优化已经很难了,我估计,得优化外层业务了。实在不行只能增加集群节点了

cyberdak - 58.com - 长期内推58

赞同来自:

这个量级最适合的就是垂直横向拆分集群了,拆成大小集群的方式。
 
优点很多:业务隔离;机器隔离;快慢隔离;避免master节点单机瓶颈。
 
跨集群搜索可以自己开发gateway,也可以用es自带的CCS。多一层gateway也更好实现流量管理,鉴权等功能。

God_lockin

赞同来自:

PB级别的还是考虑用不同的key做router,对索引做按天/小时/分钟构建+索引…之类的方式吧
 
会有些许提高但是在绝对数量面前这些技巧并不是银弹,具体的还是建议按不同的产品线、部门…拆集群,前面挂一个统一的Gateway的好

要回复问题请先登录注册