一百七十六、Kettle——Kettle配置HDFS输出控件能不能加GZIP等压缩方式?

news2025/1/22 16:59:15

一、目的

为了尽可能减少磁盘资源的消耗,因此需要对从Kafka到HDFS的写入数据进行数据压缩。由于使用的ETL工具是kettle,因此研究一下Kettle配置HDFS输出控件时能不能加GZIP等压缩方式?

kettle9.2的HDFS输出控件压缩方式包括GZip、Hadoop-snappy、None、Snappy、Zip等5种

二、HDFS输出控件中能不能加压缩方式?

在从Kafka到HDFS的kettle任务中,可以加GZip等压缩方式,这也生成了GZip格式的数据文件turnratio2023-09-12.csv.gz

由于从Kafka到HDFS的kettle任务在不停的执行,所以这个turnratio2023-09-12.csv.gz文件虽然显示有126KB,但是如果解压查看的话就会报错。

因为kettle任务一直在执行,而压缩要等任务结束之后再压缩,所以表面看数据文件是有大小的,不是空文件,但是实际文件没数据。

因此,在从Kafka到HDFS的kettle任务中,为了自动生成每日的数据文件,在HDFS输出控件中可以加GZip等压缩方式,但是不能加

否则只要kettle任务不停,那么HDFS文件中就没数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1007129.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何在Python爬虫程序中使用HTTP代理?

在进行网络爬虫时,我们经常需要使用代理服务器来隐藏自己的真实IP地址,以避免被目标网站封禁或限制访问。本文将介绍如何将HTTP代理配置到Python爬虫程序中使用。 什么是HTTP代理? HTTP代理是一种网络代理,它充当客户端和服务器之…

asp.net一套完整的实验室综合管理系统源码 LIMS

LIMS将样品管理、数据管理、资源管理、业务管理、报告管理等功能融为一体,组成一套完整的实验室综合管理和产品质量监控体系。其核心是规范样品化验分析的工作流程,对样品分析的每一个环节进行监控和管理,在提高样品分析质量和人员工作效率的…

集中采购如何节省企业时间和金钱?

初创企业和规模较小的企业在采购时往往抱着 "获取业务所需 "的心态进行采购。这对于采购需求较低的小型企业来说可能可行,但随着企业的发展,采购系统必须不断发展。 这种演变通常始于一种通过技术进一步强化的流程——集中采购模式。利用集中…

恒运资本:煤炭、石油板块拉升,安泰集团一度涨停,中曼石油等走高

煤炭板块13日盘中发力走高,到发稿,安泰集团涨超6%,盘中一度涨停;平煤股份、山煤国际涨逾3%。石油、燃气板块亦上扬,到发稿,大连热电涨超7%,中曼石油涨逾4%,贝肯能源涨逾2%。 组织表…

数据治理的 “独孤九剑”

加gzh“大数据食铁兽”,了解更多大数据资讯! 来源:与数据同行 免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权,请联系删除 ;资料…

【云原生进阶之PaaS中间件】第二章Zookeeper-3.2架构详解

​​​​​​​ 1 Zookeeper工作原理 1.1 Zookeeper的角色 领导者(leader),负责进行投票的发起和决议,更新系统状态 学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票 Observer可…

向日葵管理平台添加主机,获取葵码,在设备上进行绑定

管理平台地址 贝锐向日葵管理 - 登录 (oray.com) 使用 微信扫码登录 查看设备管理-设备列表 添加单个设备 输入名称,点击确定 生成葵码,点击此处 进行复制,在 被控端上进行葵码绑定

阿里云OSS文件上传下载【专栏】------文件下载(二)

目录 1、流式下载1.1、代码示例1.2、执行结果 2、下载到本地文件2.1、代码示例2.2、执行结果 3、断点续传下载3.1、代码示例3.2、执行结果 1、流式下载 当下载的文件太大或者一次性下载耗时太长时,您可以通过流式下载,一次处理部分内容,直到完…

热管理系统研发服务

为了适应电动化和智能化的需求,汽车热管理正从传统的发动机冷却和空调系统发展至电池热管理、电机电控热管理系统以及热泵空调系统,以实现对座舱温度、电池温度和动力总成温度的精确控制。由于新增了繁多的、控制精度要求更高的零部件,使得系…

《TCP/IP网络编程》阅读笔记--多线程服务器端的实现

1--多线程的优点 多进程服务器的缺点: ① 创建进程的过程会带来一定的开销; ② 为了完成进程间的数据交换,需要特殊的 IPC 技术; ③ 进程间的上下文切换是创建进程时的最大开销; 多线程的优点: ① 线程的创…

微服务架构笔记

文章目录 简介微服务架构微服务方案对比注册中心 简介 SpringCloud(多种框架组件技术集合的总框架)笔记 传统单体架构VS微服务分布式架构 单体架构特点? 简单方便,高度耦合,扩展性差,适合小型项目。例如:学生管理系…

VMware Workstation虚拟机网络配置及配置自动启动

目录 一、网络配置二、配置自动启动1.VMware 中配置虚拟机自启动2.系统服务中配置 VMware 服务自启动 一、网络配置 本文将虚拟机 IP 与主机 IP 设置为同一个网段。 点击 “编辑” -> “虚拟网络编辑器(N)…”: 点击 “更改设置”: 将 VMnet0 设置…

Linux下安装和使用MySQL的详细教程

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

机器学习入门案例(2)之使用逻辑回归预测房子是否能被租出去

大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。 1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员… 2、这几年,我整理了很多IT技术相关的教程给大家&#xff0…

gitlab操作

1. 配置ssh 点击访问 2. 创建新分支与切换新分支 git branch 新分支名 // 创建 git checkout 新分支名 // 切换到新分支3. 查看当前分支 git branch*所指的就是当前所在分支 4. 本地删除文件后与远程git同步 git add -A git commit -m "del" git push

编码转换流

同理,创建f1和f2方法,分别测试OutputStreamWriter和InputStreamReader 也是主要分三步,即1创建流 2使用流 3关流 OutputStreamWriter f1方法 因为要操作流,所以先创建一个try-catch-finally结构,创建流对象Out…

【2596. 检查骑士巡视方案】

来源:力扣(LeetCode) 描述: 骑士在一张 n x n 的棋盘上巡视。在有效的巡视方案中,骑士会从棋盘的 左上角 出发,并且访问棋盘上的每个格子 恰好一次 。 给你一个 n x n 的整数矩阵 grid ,由范…

无涯教程-JavaScript - ISERR函数

描述 如果ISERR函数引用的是Excel错误(#N/A错误除外),则ISERR函数返回逻辑值TRUE。否则返回FALSE。 语法 ISERR (value)争论 Argument描述Required/OptionalvalueAn errorRequired Notes 此函数在公式中用于测试计算输出很有用。与IF函数结合使用时,此函数提供…

综合能力 ---- 2. 法律法规

1. 法律法规 1.1 电信条例 电信条例概述电信市场规定电信服务规定电信建设规定电信安全规定 1.2 网间互联管理规定 网间互联概述经营者的互联义务互联时限 1.3 网络安全法 网络安全法概述网络运行安全规定网络信息安全规定 2. 电信条例修订的目的 《电信条例》于2016年做…

fatal error: linux/compiler-gcc9.h: No such file or directory

linux 找到README文件 cd /mnt/e/CLionProjects/linux-3.10.99/linux-3.10.99 sudo useradd linux3x sudo passwd linux3x sudo mkdir /home/linux3x sudo chown linux3x:linu3x /home/linux3x sudo chmod 755 /home/linux3x su - linux3x mkdir ~/build mkdir ~/build/kerne…