datax-hdfsReader 学习

news2025/1/11 21:54:40

今天同事遇到了一个问题。就是hdfsreader->mysqlwriter这种的时候。

有的分区没有数据会报错。

com.tencent.s2.dataingestion.common.exception.DataXException: Code:[HdfsReader-08], Description:[您尝试读取的文件目录为空.]. - 未能找到待读取的文件,请确认您的配置项path: /user/hive/warehouse/dwdmdata.db/dm_tax_f_income_account_detail_y/year_id=2022/ou_code=105

问题很简单，因为该分区下没有数据文件所以报错。

这个解决也很容易。

1.当时想的是在shell里判断分区路径是否存在然后hdfs dfs -ls /path |wc -l 看文件个数是否>0

后来发现这种不是很可取。

2.当时就觉得这种判断不太对，以前其他reader的时候怎么不见报错，hdfsReader就报错是吧。

哪里报错丢异常我改成 warn就好了。

找到报错点

那全部原因就是 emptyDirIsExecption 再看

/**emptyDirIsExecption  默认值为true，当指定为false，空目录任务会返回成功，同步记录数为0**/
private Boolean emptyDirIsExecption=null;

再看，这里就是很清楚了

emptyDirIsExecption = this.readerOriginConfig.getBool(Key.EMPTY_DIR_IS_EXECPTION, true);

我们设置在json里设置 emptyDirIsExecption=false即可。

————————————————————————————————————————

至此你以为我就研究完了。前面提到了hdfsreader->mysqlwriter。在刚刚的报错过程中发现了一个问题或者说bug？

hdfsReader报错很正常。但是这里把mysql的presql也执行了。

由此有个疑问 writer和reader那个先运行？一起还是分先后？

先思考下。

如果writer先reader后。这样writer先执行presql 然后等reader的数据进来，节约了时间

如果writer后reader先。好处是reader先读数据如果都没读到，writer都不用启动了。

我们再看看datax是怎么思考的。

所以我上面思考的还是太简单了。

所有的pre post split 几乎都是同一时刻完成的。

当然真正的传输数据是在schedule的时候完成的。那么我现在需要如果hdfs reader没有数据也不执行writer的presql怎么做呢？

1.按照我上面的第一种办法在shell里判断文件个数，可以直接跳过datax结束任务

2.还是改源码？ hdfs判断文件数是在split()方法里。我们看split方法

很明显hdfsreader这里会读取到0个文件。当我加了参数emptyDirIsExecption=false后这里=1

然后走mysql的split方法后面会按照split的个数切分任务就不罗嗦了

按照datax的逻辑走到这的时候presql已经执行了。

再仔细看看 job有prepare ，task有prepare

我们点进方法发现如果tableNumber=1就是执行job的presql 如果tableNumber>1执行task的presql；

我只能说datax想的很好。但是感觉这个不可行。

比如hdfs 表student到mysql 的student1 和student2；我的presql是truncate table student1;truncate table student2;

那么执行每个task的时候都要truncate下。。好像不是很合理吧。

按照我的需求好像把presql放到task里执行比较合理。但是呢感觉有问题。

———————————————未完待续，有时间搞下—————————————————

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/50314.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

datax-hdfsReader 学习

相关文章

持久层框架设计实现及MyBatis源码分析 ---- MyBatis基础回顾及高级应用

卡尔曼滤波：The Scaler Kalman Filter常量卡尔曼滤波器

SpringBoot+Vue实现前后端分离的宠物医院管理系统

Fiddler抓包工具是最强大最好用的 Web 调试工具之一

【C++11重点语法上】lambda表达式，初始化列表

22年11月-外包-面试题

【Hadoop】在云服务器上部署Hadoop2.7.1伪分布式集群

怎样图片转文字？两分钟让你实现快速转文字

[附源码]Python计算机毕业设计Django房产中介管理系统

[附源码]计算机毕业设计springboot路政管理信息系统

RFC(Remote function call)

mysql的主从复制

Transformer对接公司需求的调研报告

Open vSwitch系列之数据结构解析深入分析ofpbuf

1543_AURIX_TC275_CPU子系统_CPU内核实现特性

[附源码]Python计算机毕业设计SSM辽宁科技大学二手车交易平台（程序+LW)

非常强，批处理框架 Spring Batch 就该这么用！（场景实战）

NVIDIA 7th SkyHackathon（八）使用 Flask 与 Vue 开发 Web

卡尔曼滤波：过滤随机游走

为什么程序员买不起房子？