datax导入到hive的数据量翻倍

news2025/11/9 17:45:33

现象 mysql->hive 或者oracle->hdfs

源表数据100w 结果hive表数据200w。

这个现象很容易发生，只要你同一时间调度这个json两次。

原因

"writeMode" : "append", "nonconflict","truncate"

* append，写入前不做任何处理，data-ingestion hdfswriter直接使用filename写入，并保证文件名不冲突。
* truncate 会把filename的文件的删掉
* nonConflict，如果目录下有fileName前缀的文件，直接报错。

那么问题出在哪里呢？

因为hive的数据底层就是文件，有文件就有数据，这中间并没有像mysql这种插入一条数据这种事务关系。

例如 append 你执行了两次肯定double

truncate为什么会double呢？

因为datax的执行逻辑是

1.先删除文件

2. 在stageing目录写数据文件

3.最后rename到目标目录。

其中2->3少的有十几秒，多的有几十分钟。

在这段时间内如果我又执行了一个这个任务，会发生什么呢？

1.删文件，结果前面的都删完了，那我就不删了呗

2. 在stageing目录写数据文件

3.最后rename到目标目录。

2和3步骤重复运行了两次。按道理来说第二次应该把第一次的数据文件删除，可是别人也没跑完，而且还不在同一个目录。怎么删

只好将错就错，到最后就有了两份文件。

所以问题很清楚。解决办法也很简单

1.在我rename的之前我再删一次。

2.在我rename之前我发现突然又有文件了，那我就把自己删了

前者属于删别人，后者属于删自己

个人觉得后者好。

就是在这里rename之前判断目录下是否有文件，有文件就删除！！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/383273.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

datax导入到hive的数据量翻倍

相关文章

无线WiFi安全渗透与攻防(二)之打造专属字典

【蓝桥杯嵌入式】定时器实现按键单击，双击，消抖以及长按的代码实现

盘点一下那些远程办公的神仙公司

最近我的视频播放浅学总结

12.1 基于Django的服务器信息查看应用（系统信息、用户信息）

华为OD机试用Python实现 -【广播服务器】

常见的电脑运行卡顿原因及解决方法

App防抓包的四种绕过方法（详细）

Easyrecovery数据恢复软件工作原理及使用介绍教程

（JUC）核心线程和救急线程的区别；Executors-固定大小线程池单线程线程池

人机交互（软件工程视角）第一、二章部分题目答案

软测入门(四)Appium-APP移动测试基础

FPGA纯verilog手写HDMI发送IP 提供源码和技术支持

WebRTC 系列之视频辅流

二叉树——把二叉搜索树转换为累加树

春天到了，来一场 VoxEdit 创作大赛吧！

有趣的阻抗变换

项目管理软件中日历的作用

Stochastic Approximation 随机近似方法的详解之（二）Robbins-Monro Algorithm

嵌入式学习笔记——基于Cortex-M的单片机介绍