提问:布和纸怕什么?

ES冷数据存储到HDFS时的问题

Elasticsearch | 作者 wangxinrong | 发布于2019年06月17日 | 阅读数:2384

目前我的需求是1月以上的冷数据需要以成本最小的方式存储,基本不查询,需要查询时可接受较长时间将数据恢复回ES。
所以现在HDFS采用大硬盘服务器做集群,使用纠删码,这样可以保证HDFS层面服务器成本最低。
ES的备份使用快照方式。存储数据时,我希望使用gzip方式做压缩,压缩率高,现在遇到的问题是使用repository-hdfs插件做快照时,并没有找到参数指定以什么压缩方式写入HDFS,直接写入的数据看起来是没有做压缩的,这个要怎么解决呢,既然ES提供了快照到HDFS的支持,应该考虑到它的应用场景是做备份,那压缩的问题,应该是有对应解决方法的吧?
已邀请:

zqc0512 - andy zhou

赞同来自:

这个应该是HDFS控制的吧?ES只提供数据,看下HDFS的压缩方式。ES7有个冻结索引了,可以试试搞下。多集群复制。
现在感觉HDFS要凉了……

wangxinrong

赞同来自:

一般的数据写入HDFS时会有压缩方式的选择的,这个是在客户端写入时指定,也就是ES这一方。
HDFS还是比较有用的,它在高可用、存储成本方面都比较好。

wangxinrong

赞同来自:

我看了logstash的logstash-output-webhdfs插件,它的参数里就有compession这个选项,可以选none、gzip、snappy。
现在就是希望快照也能有这样的参数指定,让保存到HDFS里的内容,是经HDFS压缩过的。

要回复问题请先登录注册