file | 某文件夹【解耦合】下的文件查找功能实现及功能单元测试

news2025/1/8 11:30:05

文件查找工具

  • 概要
  • 思路
  • OS模块 --- 学习版
    • os.getcwd()
    • os.path.dirname(os.getcwd())
    • os.path.dirname() 和 os.path.basename()
  • OS模块 — 实战版
      • 单元测试
        • 解耦合

概要

  • 梳理业务主逻辑:
  1. 查看存放被采集JSON数据的文件夹内的文件列表【所有 包含文件夹下的文件夹下的文件
    这是本节内容聚焦的点
  2. 和MySQL内记录的信息做比对,判断哪些文件是新文件,需要采集的。
  3. 读取JSON文件,执行ETL操作(读取->写入CSV->写入MySQL(目的地库))。
  4. 将被处理的JSON信息,记录到MySQL数据库(元数据库)

思路

读取某个文件中的文件名--------------------set()

读取数据库中已经处理过的文件名称-----set()
做处理 – 得到未处理过的文件名-----------set()-set()

如何处理?

  • 思路1:集合相减得到的结果是在第一个集合且不在第二个集合中的元素
  • 思路2: for循环

在这里插入图片描述

OS模块 — 学习版

  • 耦合

和固定路径绑定在一起,若是将这部分代码给其他人,他们需要创建对应文件夹才可以使用

# 学习OS 接口模块
import os

# 输出文件下的子文件  - 不包括子文件下的文件 仅返回子文件夹的名称
files = os.listdir(r'E:\pythonProject\ETL\day04_商品数据采集\04_数据\采集JSON')
print(files)

# 输出文件下的子文件 包括子文件夹呢?
# 递归调用
def read_dir(dir):
    results =[]
    files = os.listdir(dir)
    for file in files:
        # 判断是否是目录
        if os.path.isdir(file):
            results += read_dir(dir+'/'+file)
        else:
            results.append(dir+'/'+file)

    return results
  • 调用

print(read_dir(os.getcwd()))

['E:\\pythonProject\\pythonetl\\learning/learning_os.py', 'E:\\pythonProject\\pythonetl\\learning/learning_time.py', 'E:\\pythonProject\\pythonetl\\learning/learning_unittest.py', 'E:\\pythonProject\\pythonetl\\learning/learn_logging.py', 'E:\\pythonProject\\pythonetl\\learning/log_t1.py', 'E:\\pythonProject\\pythonetl\\learning/mycode.py']

当前路径E:\pythonProject\pythonetl\learning\learning_os.py,在learning_os.py中执行以下代码

os.getcwd()

print('getcwd',os.getcwd())

getcwd E:\pythonProject\pythonetl\learning

os.path.dirname(os.getcwd())

print('dirname',os.path.dirname(os.getcwd()))

dirname E:\pythonProject\pythonetl

os.path.dirname() 和 os.path.basename()

stra = ['E:\pythonProject\pythonetl']
for i in stra:
    print(os.path.dirname(i))
    print(os.path.basename(i))

E:\pythonProject
pythonetl

OS模块 — 实战版

  • 在until文件夹下创建filr_until.py文件
import os

def get_dir_files_list(path="./",recursive=False):
    # 判断文件夹下面,有哪些文件
    # :param path:被判断的文件夹的路径,默认当前路径
    # :param recursive:是否递归读取,默认不递归
    # :return:1ist对象,list里面存储的是文件的路径

    #os.listdir这个API返回的是你给定的path下面有哪些`文件和文件夹`、
    dir_names = os.listdir(path)
    # print('dir_names',dir_names)
    # if not dir_names:
    #     return os.path.basename(path)
    files =[]
    #定义一个list,用来记录文件
    for dir_name in dir_names:
        absolute_path = f"{path}/{dir_name}"
        if not os.path.isdir(absolute_path):
            # print('not a dir')
            #如果进来这个if,表明这个是:文件
            files.append(absolute_path)
        else:
            # print('is a dir')
            #表明是文件夹
            if recursive:
                #如果recursive是True,表明要进到文件夹里面继续找文件
                files += get_dir_files_list(absolute_path,recursive)
    return files

单元测试

  • test文件夹下的test_file_until.py文件
    在这里插入图片描述
import os.path
from unittest import TestCase
from util.file_util import get_dir_files_list


class TestFileUtil(TestCase):
    # 确定手动创建的测试目录的绝对路径
    def setUp(self) -> None: # 测试前需要提前执行的代码  例如连接数据库
        self.project_root_path = os.path.dirname(os.getcwd())
        print('解耦合获得路径:',self.project_root_path)
        pass

    def test_myfunc(self): # 要以test开头运行
        # 测试get_dir_files_list 函数
        # 该以哪一个作为我们的测试目录
        # 解耦合  ---
        '''
        请在工程根目录的test文件夹内建立:
        test_dir /
            inner1 /
                iner2 /
                    innner3/
                    5
                3
                4
            1
            2
        的目录结构用于进行此方法的单元测试
        不递归结果应该是1和2
        递归结果应该是1, 2, 3, 4, 5
        '''

        # 测试没有开启递归调用的代码
        result1 = get_dir_files_list(
            path = self.project_root_path + '/' + 'test_dir',
            recursive=False
        )

        predicted_result= ['1', '2']
        # self.assertEqual(results, predicted_result)
        result_1 = []
        for p in predicted_result:
            result_1.append(self.project_root_path + '/' + 'test_dir'+'/'+p)

        # 排除顺序对结果的影响
        result1.sort()
        result_1.sort()
        # 这里断言 函数获得的结果和预期的结果路径是一致的
        self.assertEqual(result1, result_1)


        # 测试开启递归调用的代码  不包括inner3这种情况
        result2 = get_dir_files_list(
            path = self.project_root_path + '/' + 'test_dir',
            recursive=True
        )
        predicted_result = ['1', '2','inner1/3','inner1/4','inner1/inner2/5',]
        # 若是  'inner1/4','inner1/3'  则会出现错误   因此 我们要加上一道保险  调整顺序
        # 使用sort()函数  没有返回值
        result_2 = []
        for p in predicted_result:
            result_2.append(self.project_root_path + '/' + 'test_dir'+'/'+p)

        result2.sort()
        result_2.sort()
        self.assertEqual(result2, result_2)


        # 测试开启递归调用的代码  测试空文件夹  针对 inner3这种情况
        '''
        实际上输出  不应该出现  'E:\\pythonProject\\pythonetl/test_dir/inner1/inner2/inner3'这种情况
        因为我们遍历的是可以用的文件   而非目录     所以想办法排除目录
        '''
        result3 = get_dir_files_list(
            path = self.project_root_path + '/' + 'test_dir',
            recursive=True
        )
        predicted_result = ['1', '2','inner1/3','inner1/4','inner1/inner2/5','inner1/inner2/inner3'] #
        # 若是  'inner1/4','inner1/3'  则会出现错误   因此 我们要加上一道保险  调整顺序
        # 使用sort()函数  没有返回值
        result_3 = []
        for p in predicted_result:
            result_3.append(self.project_root_path + '/' + 'test_dir'+'/'+p)
            #
            if os.path.isdir(result_3[-1]):
                if not os.listdir(result_3[-1]):
                    result_3.pop(-1)

        result3.sort()
        result_3.sort()
        self.assertEqual(result3, result_3)

    def tearDown(self)-> None: # 收尾工作
        pass
解耦合

在软件开发中,解耦合(Decoupling)是指减少或去除系统中各组件之间的相互依赖关系,以提高系统的灵活性和可维护性。

解耦合的目标是创建松散耦合的系统,其中每个组件或模块都可以独立于其他组件进行开发、测试和维护。

例如:

我的一个系统的文件路径是绝对路径, 若是我将该系统给另一个人,他会因为文件夹是否存在的问题而出现报错的风险,因此我们要做解耦合的措施

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2106961.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

idea添加本地环境执行模版

用Flink的环境执行时&#xff0c;因为最后会打包放服务器&#xff0c;所以有些jar包将不会打包上传&#xff0c;这些jar包用<scope>provided</scope>标记 所以这些jar包在本地运行时也会不提供&#xff0c;为了程序在本地能跑&#xff0c;我们每次执行是需手动添加…

2024跨境必备的软件-产品优化AI智能工具,支持Shopee、TikTok Shop、TEMU、Lazada等

卖家朋友们&#xff0c;你是否还在用图片优化软件一张张修改产品图&#xff1f;改完还要绞尽脑汁思考如何才能写出爆款Listing&#xff1f;接着又要继续头疼图片翻译等问题&#xff1f; 一个产品优化完至少需要两三个小时&#xff0c;尤其对于多平台多站点的卖家朋友来说&…

利用正则表达式从字符串中提取浮点数

在 Python 中&#xff0c;使用正则表达式可以非常方便地从字符串中提取浮点数。Python 的 re 模块提供了正则表达式支持。下面是如何使用正则表达式提取浮点数的示例。 1、问题背景 在开发过程中&#xff0c;有时候我们需要从字符串中提取浮点数&#xff0c;例如从 HTML 代码中…

vs2022 如何去掉 错误|警告的波形曲线 绿色波浪线

如图&#xff1a; 去不去都一样&#xff0c;只是看着不舒服&#xff0c;相当不爽 工具→选项→文本编辑器→显示错误波形曲线&#xff0c;把前的√去掉&#xff0c;按确定 清爽多了&#xff0c;虽然没啥卵用 。。。

泛微OA主流程节点设置子流程归档后主流程自动跳转下一个节点,子流程已归档主流程不自动跳转

⭐️如果对你有用的话&#xff0c;希望可以点点赞&#xff0c;感谢了⭐️ 主流程节点已设置触发的子流程归档后自动跳转下个节点 当子流程归档后主流程不自动跳转下个节点 是什么问题&#xff1f; 主流程节点中存在必填字段中有空值&#xff0c;需要检查主流程节点排查把空值…

MSSQL数据库安全配置

预备知识 1、数据库安全的概念 对任何企业组织来说,数据的安全性最为重要。安全性主要是指允许那些具有相应的数据访问权限的用户能够登录到数据库,并访问数据以及对数据库对象实施各种权限范围内的操作,但是要拒绝所有的非授权用户的非法操作。因此安全性管理与用户管理是…

开学季好物分享!揭秘学霸们都在用的神器

一年一度的大学入学又开始了&#xff0c;一群充满朝气&#xff0c;怀着好奇的准大学生准备步入大学的校园。每次开学都看到大家拎着大包小包的行李&#xff0c;开学后快递站山人山海&#xff0c;看完这篇开学季好物分享&#xff01;揭秘学霸们都在用的神器&#xff0c;教你快人…

满誉而归 | 2024物联网IOTE展·人工智能AGIC展完美收官

引言&#xff1a; 随着物联网技术的飞速发展&#xff0c;2024年深圳物联网IOTE展会成为了全球科技界瞩目的焦点。北京宇音天下科技有限公司作为语音技术领域的先锋&#xff0c;公司在此次展会上展出了多款创新产品和解决方案&#xff0c;旨在通过尖端科技&#xff0c;推动智能生…

数据库太慢跑崩的一大罪魁

就是非常不起眼的帐号去重计数&#xff0c;用 SQL 写就是 COUNT(DISTINCT …)。 帐号去重计数在商业分析中很常见也有重要的业务意义。这里的帐号可能是用户 ID、银行帐户、手机号、车牌号、…。计算逻辑基本一样&#xff0c;就是从某个时段的历史数据中统计出有多少个帐号满足…

k8s的Ingress控制器安装

Ingress文档地址&#xff1a;Ingress文档 1.安装helm 官网地址&#xff1a;helm官网安装 wget https://get.helm.sh/helm-v3.2.3-linux.amd64.tar.gz tar -zxvf helm-v3.2.3-linux-amd64.tar.gz cp linux-amd64/helm /usr/local/bin/ rootmaster01:~# helm version version.B…

​覆盖90%开发场景的《Flutter开发手册》​

哈喽&#xff0c;我是老刘 我本人是带客户端团队的&#xff0c;带着团队切换到Flutter上也已经差不多6年了。 但也不是只写客户端App。基于Flutter来说&#xff0c;也写过桌面端、Web端程序。 但是坦白说&#xff0c;真没有一个Flutter项目是同时覆盖6个平台的。 为啥呢&…

分布式版本管理工具——Git拉取Github项目到本地仓库

Git拉取&#xff08;下载&#xff09;github项目到本地仓库 一、前言二、拉取github项目至本地三、结束语 一、前言 不得不说&#xff0c;如果懂得利用好Git以及github&#xff0c;能够在很大程度上帮助到我们的日常学习与工作&#xff0c;这里我简单的给大家介绍如何使用Git下…

内部类(定义在类的内部)

a.成员内部类&#xff08;Inner Class&#xff09; 1.不能单独存在&#xff0c;必须依附于外部类。 2.Outer.Inner inner outer.new Inner(); 3.内部类可以访问当前外部类的private属性和方法&#xff0c;可以用”外部类名.this“访问外部实例的属性和方法。 …

Windows键盘快捷方式

键盘快捷方式是两个或多个键的组合&#xff0c;可用于执行通常需要鼠标或其他指针设备才能执行的任务。 使用键盘快捷方式你可以更轻松地与电脑进行交互&#xff0c;从而在使用 Windows 和其他应用时节省时间和精力。 大多数应用还提供加速键&#xff0c;以让你能够更轻松地使…

机器人笛卡尔空间轨迹规划原理与MATLAB实现

机器人笛卡尔空间轨迹规划是指在给定的笛卡尔坐标系&#xff08;通常是三维空间坐标系&#xff09;中规划机器人的末端执行器&#xff08;如抓手、焊枪等&#xff09;的移动路径。这种规划方式直观且易于理解&#xff0c;因为它直接关联到任务空间中机器人的位置和姿态。下面将…

分享购买率拉满的8个商品详情页设计技巧!

电子商务网站的商品详情页是商家和设计师关注的重点之一。这一页面在用户决策是否购买商品方面发挥着至关重要的作用。如果一个优质商品没有配套有效的详情页&#xff0c;其转化率将会显著下降&#xff0c;从而影响流量和销量&#xff0c;最终可能导致店铺的淘汰。无论销售何种…

[ComfyUI]Flux​:不花钱免费白嫖最强反推JoyCaption​,仅需几步无门槛轻松搞定

大家好我是极客菌&#xff01;&#xff01;&#xff01; 今天文章主题将为大家介绍一款优秀的图像反推模型&#xff1a;Joy Caption。这是由作者Fancy Feast开发的Joy Caption模型&#xff0c;是在谷歌的SigLIP模型和Meta的最新Llama3.1 模型的基础之上&#xff0c;使用Adapte…

数学建模竞赛论文写作方法

数模竞赛论文结构剖析 摘要问题重述模型假设符号说明问题分析模型建立模型求解结果及分析检验与推广模型评价参考文献附录 摘要 摘要一般应包括&#xff1a; 用一两句话说明原题中要求解决的问题明确说明建立了什么模型&#xff0c;在数学上属于什么类型&#xff0c;建模的…

Spring Boot技术构建的创新在线拍卖系统

系统测试 1.1系统测试的目的 程序设计不能保证没有错误&#xff0c;这是一个开发过程&#xff0c;在错误或错误的过程中都是难以避免的。虽然这是不可避免的&#xff0c;但我们不能使这些错误始终存在于系统中&#xff0c;错误可能会造成无法估量的后果&#xff0c;如系统崩溃&…

PyTorch:优化读取LMDB数据的五大策略

LMDB:http://www.lmdb.tech/doc/index.html lmdb存放千万级别数据IO问题 https://github.com/OFA-Sys/Chinese-CLIP/issues/46 PyTorch LMDB读取慢的原因 LMDB是一种嵌入式键值存储引擎&#xff0c;它具有快速、可靠和高效的特点。然而&#xff0c;与常规文件格式相比&#…