Orc小文件合并问题
- Orc小文件合并问题
现象:hdfs中出现大量ORC小文件
1.1. 已经映射为hive表ORC小文件合并
1.1.1. 非分区表
alter table 表名 concatenate;
示例:
alter table ods_lxy_demo concatenate;
注意:可多次重复执行,每执行一次就会做一次文件合并,执行多次最终会合并成一个文件;重复执行次数是具体业务和文件多少而定,满足业务需求即可,不一定非要都合并成一个文件。
结果示例:(已将前面多个单个文件为1k左右的orc小文件合并)
1.1.2. 分区表
alter table 表名 partition(分区key=分区value) concatenate;
示例:
alter table tablename partition(dt=20221202) concatenate;
注意:concatenate 命令只支持 RCFILE 和 ORC 文件类型,需要执行多次,才能把文件合并为1个。
1.2. 调整flink程序检查点配置减少小文件产生
1.2.1. 增加检查点合并周期与超时时间
示例:
env.enableCheck