参考资料
1. HDFS中的常用压缩算法及区别_大数据_王知无_InfoQ写作社区
2.
本文主要介绍下HDFS上的常见文件格式和压缩格式
总结 :
HDFS 中常见的文件存储格式
- textfile :行式存储格式
- sequencefile :行式存储格式
- orc :列式存储格式, 支持ACID,常用的文件组织方式
- parquet : 列式存储格式
HDFS中常见的文件压缩方式
- gzip : 不支持split
- lzo : 支持split
- snappy : 不支持split, 数仓中最常用的压缩方式
- bzip2 : 支持split
=======================================================================
延申问题
为什么hadoop没有自带lzo和snappy压缩?
主要是由于lzo和snappy压缩采用的是GPL协议,而hadoop是apache协议,有关协议的区别可参考阮大神的图示: