Python可复用函数的 6 种最佳实践

news2024/11/28 15:49:18

对于在一个有各种角色的团队中工作的数据科学家来说,编写干净的代码是一项必备的技能,因为:

  • 清晰的代码增强了可读性,使团队成员更容易理解和贡献于代码库。

  • 清晰的代码提高了可维护性,简化了调试、修改和扩展现有代码等任务。

为了实现可维护性,我们的Python函数应该:

  • 小型

  • 只做一项任务

  • 没有重复

  • 有一个层次的抽象性

  • 有一个描述性的名字

  • 有少于四个参数

我们先来看看下面的 get_data 函数。

import xml.etree.ElementTree as ET  
import zipfile  
from pathlib import Path  
import gdown  
  
def get_data(  
    url: str,  
    zip_path: str,  
    raw_train_path: str,  
    raw_test_path: str,  
    processed_train_path: str,  
    processed_test_path: str,  
):  
    # Download data from Google Drive  
    zip_path = "Twitter.zip"  
    gdown.download(url, zip_path, quiet=False)  
  
    # Unzip data  
    with zipfile.ZipFile(zip_path, "r") as zip_ref:  
        zip_ref.extractall(".")  
  
    # Extract texts from files in the train directory  
    t_train = []  
    for file_path in Path(raw_train_path).glob("*.xml"):  
        list_train_doc_1 = [r.text for r in ET.parse(file_path).getroot()[0]]  
        train_doc_1 = " ".join(t for t in list_train_doc_1)  
        t_train.append(train_doc_1)  
    t_train_docs = " ".join(t_train)  
  
    # Extract texts from files in the test directory  
    t_test = []  
    for file_path in Path(raw_test_path).glob("*.xml"):  
        list_test_doc_1 = [r.text for r in ET.parse(file_path).getroot()[0]]  
        test_doc_1 = " ".join(t for t in list_test_doc_1)  
        t_test.append(test_doc_1)  
    t_test_docs = " ".join(t_test)  
  
    # Write processed data to a train file  
    with open(processed_train_path, "w") as f:  
        f.write(t_train_docs)  
  
    # Write processed data to a test file  
    with open(processed_test_path, "w") as f:  
        f.write(t_test_docs)  
  
  
if __name__ == "__main__":  
    get_data(  
        url="https://drive.google.com/uc?id=1jI1cmxqnwsmC-vbl8dNY6b4aNBtBbKy3",  
        zip_path="Twitter.zip",  
        raw_train_path="Data/train/en",  
        raw_test_path="Data/test/en",  
        processed_train_path="Data/train/en.txt",  
        processed_test_path="Data/test/en.txt",  
    )  

尽管在这个函数中有许多注释,但很难理解这个函数的作用,因为:

  • 该函数很长。

  • 该函数试图完成多项任务。

  • 函数内的代码处于不同的抽象层次。

  • 该函数有许多参数。

  • 有多个代码重复。

  • 该函数缺少一个描述性的名称。

我们将通过使用文章开头提到的六种做法来重构这段代码。

小型

一个函数应该保持很小,以提高其可读性。理想情况下,一个函数的代码不应超过20行。此外,一个函数的缩进程度不应超过1或2。

import zipfile  
import gdown  
  
def get_raw_data(url: str, zip_path: str) -> None:  
    gdown.download(url, zip_path, quiet=False)  
    with zipfile.ZipFile(zip_path, "r") as zip_ref:  
        zip_ref.extractall(".")  

只做一个任务

函数应该有一个单一的重点,并执行单一的任务。函数get_data试图完成多项任务,包括从Google Drive检索数据,执行文本提取,并保存提取的文本。

因此,这个函数应该被分成几个小的函数,如下图所示:

def main(  
    url: str,  
    zip_path: str,  
    raw_train_path: str,  
    raw_test_path: str,  
    processed_train_path: str,  
    processed_test_path: str,  
) -> None:  
    get_raw_data(url, zip_path)  
    t_train, t_test = get_train_test_docs(raw_train_path, raw_test_path)  
    save_train_test_docs(processed_train_path, processed_test_path, t_train, t_test)  

这些功能中的每一个都应该有一个单一的目的:

def get_raw_data(url: str, zip_path: str) -> None:  
    gdown.download(url, zip_path, quiet=False)  
    with zipfile.ZipFile(zip_path, "r") as zip_ref:  
        zip_ref.extractall(".")  

函数get_raw_data只执行一个动作,那就是获取原始数据。

重复性

我们应该避免重复,因为:

  • 重复的代码削弱了代码的可读性。

  • 重复的代码使代码修改更加复杂。如果需要修改,需要在多个地方进行修改,增加了出错的可能性。

下面的代码包含重复的内容,用于检索训练和测试数据的代码几乎是相同的。

from pathlib import Path    
  
 # 从train目录下的文件中提取文本  
t_train = []  
for file_path in Path(raw_train_path).glob("*.xml"):  
    list_train_doc_1 = [r.text for r in ET.parse(file_path).getroot()[0]]  
    train_doc_1 = " ".join(t for t in list_train_doc_1)  
    t_train.append(train_doc_1)  
t_train_docs = " ".join(t_train)  
  
# 从测试目录的文件中提取文本  
t_test = []  
for file_path in Path(raw_test_path).glob("*.xml"):  
    list_test_doc_1 = [r.text for r in ET.parse(file_path).getroot()[0]]  
    test_doc_1 = " ".join(t for t in list_test_doc_1)  
    t_test.append(test_doc_1)  
t_test_docs = " ".join(t_test)  

我们可以通过将重复的代码合并到一个名为extract_texts_from_multiple_files的单一函数中来消除重复,该函数从指定位置的多个文件中提取文本。

def extract_texts_from_multiple_files(folder_path) -> str:  
  
    all_docs = []  
    for file_path in Path(folder_path).glob("*.xml"):  
        list_of_text_in_one_file = [r.text for r in ET.parse(file_path).getroot()[0]]  
        text_in_one_file = " ".join(list_of_text_in_one_file)  
        all_docs.append(text_in_one_file)  
  
    return " ".join(all_docs)  

现在你可以使用这个功能从不同的地方提取文本,而不需要重复编码。

t_train = extract_texts_from_multiple_files(raw_train_path)  
t_test  = extract_texts_from_multiple_files(raw_test_path)  

一个层次的抽象

抽象水平是指一个系统的复杂程度。高层次指的是对系统更概括的看法,而低层次指的是系统更具体的方面。

在一个代码段内保持相同的抽象水平是一个很好的做法,使代码更容易理解。

以下函数证明了这一点:

def extract_texts_from_multiple_files(folder_path) -> str:  
  
    all_docs = []  
    for file_path in Path(folder_path).glob("*.xml"):  
        list_of_text_in_one_file = [r.text for r in ET.parse(file_path).getroot()[0]]  
        text_in_one_file = " ".join(list_of_text_in_one_file)  
        all_docs.append(text_in_one_file)  
  
    return " ".join(all_docs)  

该函数本身处于较高层次,但 for 循环内的代码涉及与XML解析、文本提取和字符串操作有关的较低层次的操作。

为了解决这种抽象层次的混合,我们可以将低层次的操作封装在extract_texts_from_each_file函数中:

def extract_texts_from_multiple_files(folder_path: str) -> str:  
    all_docs = []  
    for file_path in Path(folder_path).glob("*.xml"):  
        text_in_one_file = extract_texts_from_each_file(file_path)  
        all_docs.append(text_in_one_file)  
  
    return " ".join(all_docs)  
      
  
def extract_texts_from_each_file(file_path: str) -> str:  
    list_of_text_in_one_file = [r.text for r in ET.parse(file_path).getroot()[0]]  
    return " ".join(list_of_text_in_one_file)  

这为文本提取过程引入了更高层次的抽象,使代码更具可读性。

描述性的名称

一个函数的名字应该有足够的描述性,使用户不用阅读代码就能理解其目的。长一点的、描述性的名字比模糊的名字要好。例如,命名一个函数get_texts就不如命名为extract_texts_from_multiple_files来得清楚。

然而,如果一个函数的名字变得太长,比如retrieve_data_extract_text_and_save_data,这说明这个函数可能做了太多的事情,应该拆分成更小的函数。

少于四个参数

随着函数参数数量的增加,跟踪众多参数之间的顺序、目的和关系变得更加复杂。这使得开发人员难以理解和使用该函数。

def main(  
    url: str,  
    zip_path: str,  
    raw_train_path: str,  
    raw_test_path: str,  
    processed_train_path: str,  
    processed_test_path: str,  
) -> None:  
    get_raw_data(url, zip_path)  
    t_train, t_test = get_train_test_docs(raw_train_path, raw_test_path)  
    save_train_test_docs(processed_train_path, processed_test_path, t_train, t_test)  

为了提高代码的可读性,你可以用数据类或Pydantic模型将多个相关参数封装在一个数据结构中。

from pydantic import BaseModel  
  
class RawLocation(BaseModel):  
    url: str  
    zip_path: str  
    path_train: str  
    path_test: str  
  
  
class ProcessedLocation(BaseModel):  
    path_train: str  
    path_test: str  
  
  
def main(raw_location: RawLocation, processed_location: ProcessedLocation) -> None:  
    get_raw_data(raw_location)  
    t_train, t_test = get_train_test_docs(raw_location)  
    save_train_test_docs(processed_location, t_train, t_test)  

我如何写这样的函数?

在编写Python函数时,你不需要记住所有这些最佳实践。衡量一个Python函数质量的一个很好的指标是它的可测试性。如果一个函数可以很容易地被测试,这表明该函数是模块化的,执行单一的任务,并且没有重复的代码。

def save_data(processed_path: str, processed_data: str) -> None:  
    with open(processed_path, "w") as f:  
        f.write(processed_data)  
  
  
def test_save_data(tmp_path):  
    processed_path = tmp_path / "processed_data.txt"  
    processed_data = "Sample processed data"  
  
    save_data(processed_path, processed_data)  
  
    assert processed_path.exists()  
    assert processed_path.read_text() == processed_data  

参考文献
Martin, R. C. (2009).Clean code:A handbook of agile software craftsmanship.Upper Saddle River:Prentice Hall.

---------------------------END---------------------------

题外话

在这里插入图片描述

感兴趣的小伙伴,赠送全套Python学习资料,包含面试题、简历资料等具体看下方。

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

若有侵权,请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/975872.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【机组】计算机系统组成课程笔记 第一章 计算机系统概论

1.1 计算机的基本概念 电子计算机是一种不需要人工直接干预,能够自动、高速、准确地对各种信息进行处理和存储的电子设备。 1.1.1 存储程序的工作方式 1. 单一的处理部件 2. 存储单元是定长的线性组织 3. 存储空间的单元直接寻址 4. 使用低级机器语言&#xf…

基于Hugo 搭建个人博客网站

目录 1.环境搭建 2.生成博客 3.设置主题 4.将博客部署到github上 1.环境搭建 1)安装Homebrew brew是一个在 macOS 操作系统上用于管理软件包的包管理器。类似于centos下的yum或者ubuntu下的apt,它允许用户通过命令行安装、更新和管理各种软件工具、…

JavaScript 执行上下文和作用域链

1 执行上下文 执行上下文决定了变量和函数可以访问哪些数据。 一个执行上下文就对应一个仅后台可访问的变量对象,其中保存有该上下文的局部变量、参数和函数声明。 最外层的上下文称为全局上下文。宿主环境不同,全局上下文的关联对象就不同。在浏览器…

在ubuntu20.04上安装arm-linux-gcc 4.4.3

1下载地址 [http://www.friendlyelec.com.cn/download.asp] 2.将 arm-linux-gcc-4.4.3.tar.gz 拷贝到 /bin目录 无法拷贝怎么办? 出现这种情况是 Linux 拷贝文件时权限不够, 运行命令 sudo nautilus, 打开一个具有管理员权限的文件管理器&am…

C# 子类如何访问子类的方法(同一父类)

在继承关系中,子类可以通过创建另一个子类的对象来访问其方法。下面是一个示例,展示了子类如何访问另一个子类的方法: public class Animal {public virtual void Speak(){Console.WriteLine("我是动物。");} }public class Cat :…

直播平台源码开发搭建APP的DASH协议:流媒体技术其中一环

在直播平台源码APP中,有着许许多多、多种多样的功能,比如短视频功能,帮助我们去获取信息,看到全世界用户身边发生的事情或是他们的生活;又比如直播功能,为用户提供了实时的娱乐享受,还让一些用户…

嬴图Ultipa | 实时图计算如何将反洗钱进行到底?

电影《孤注一掷》中,首度曝光了境外网络诈骗全产业链黑幕,而洗钱是最为关键的一环。 王大陆饰演的赌徒阿天将偷和抵押房产凑够的800万元一次性汇入欺诈团伙的博彩账户,由于涉及大额资金流动,警方已经开始监控。令人意外的是&#…

访问局域网内共享文件时报错0x80070043,找不到网络名

我是菜鸡 此篇只为分享一个我遇到的很简单的但是排查了好久的小问题。 我的网络环境是在校园网内, 自己的办公电脑设置了固定IP:10.11.128.236,同事电脑IP为:10.11.128.255 本人需要访问同事在局域网内分享的文件,…

统计学极简入门——数据分布

3. 数据分布 t分布、F分布和卡方分布是统计学中常用的三种概率分布,它们分别用于样本均值的推断、方差的比较和数据的拟合优度检验。 总之这3个分布很有用,首次接触你可能理解不了,但没关系你知道很重要就行了,接着往下看&#…

6.xpath的基本使用

xpath是python做数据解析的库 目录 1 安装 2 解析本地的html文件 2.1 只有一个标签的情况 2.2 有多个标签的情况 3 解析网上的页面 4 xpath表达式 4.1 绝对路径 4.2 两个斜杠表示中间隔了0级或多级 4.3 通过属性查找 4.4 通过索引查找 4.5 获取文本内容…

JavaScript-----运算符与流程控制

目录 前言: 1. 运算符 1.1 算术运算符 1.2 赋值运算符 1.3 比较运算符 1.4 逻辑运算符 2.流程控制 1.1 分支结构 switch语句 1.2 循环结构 while 循环 for循环 循环控制 : 1.3代码示例 前言: 今天我们就开始学习JavaScript里面的运算符和流…

【校招VIP】测试开发之字符串算法

考点介绍: 字符串匹配看起来是个很简单、很成熟的问题,但在很多领域都有着很多的应用,比如模式匹配、特征提取等等。字符串算法是很经典的面试题,既考察了求职者的写用例水平又考察了软件测试求职者的编码水平。 测试开发之字符串…

景联文数据标注:AI大模型在教育和医疗领域的应用

8月31日消息,备受行业瞩目的首批大模型产品获批名单发布,首批通过备案的8家大模型公司分别是:百度(文心一言)、抖音(云雀大模型)、智谱AI(GLM大模型)、中科院&#xff08…

centos7上hive3.1.3安装及配置

1、安装背景; hive是基于hadoop的数据仓库软件,部署运行在linux系统之上,安装之前必须保证hadoop环境运行正常,hive本身不是分布式软件,它的分布式主要是借助hadoop实现,存储是hdfs,计算是mapr…

彻底学会Unity从网上加载资源到场景

使用类WWW 该类实例化的对象可以存储多种多媒体资源,只需要在构造函数中附上可访问的资源链接 Unity 中,WWW 类用于实例化互联网上的资源,如文本、图像、音频和视频等。WWW 实例化的对象可以存储多种多媒体素材。以下是一些常见的例子&…

Kubernetes(k8s) 架构原理一文详解

目录 一、k8s 概述 1.什么是k8s? 2.特性 3.主要功能 三、集群架构与组件 1.Master 组件 (1)Kube-apiserver (2)Kube-controller-manager (3)Kube-scheduler 2.配置存储中心 3.Node 组…

Cell Reports | 揭开METTL14在介导m6A修饰中的神秘面纱

m6A被认为是最丰富的mRNA修饰,广泛分布在大多数真核生物中,包括哺乳动物、植物、昆虫、酵母和某些病毒。m6A修饰的沉积和去除之间的动态平衡对于正常的生物过程和发育至关重要,如失调通常与癌症等疾病有关。m6A修饰由m6A甲基转移酶复合物&…

C++多态案例3----组装电脑含测试代码

案例描述: 电脑主要组成部件为 CPU (用于计算) ,显卡 (用于显示) ,内存条 (用于存储)将每个零件封装出抽象基类,并且提供不同的厂商生产不同的零件,例如Intel厂商和Lenovo厂商创建电脑类提供让电脑工作的函数,并且调用…

nc前端合计行、按钮组

nc前端合计行、按钮组 1.无表体和单表体的合计行加法 只要卡片下 如果是只有表头要合计行就只留ShowTotalLine;如果是只有表体要合计行就只留ShowTotalLineTabcodes 2.多表体的合计行加法 表头卡片下和列表下都要 3.档案的合计行加法 重写一下列表模板 …

9.4作业

服务器 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);servernew QTcpServer(this); }Widget::~Widget() {delete ui; }void Widget::on_pushButton_clicked(…