【pytorch源码分析--torch执行流程与编译原理】

news2024/11/24 6:59:22

在这里插入图片描述

背景

  • 解读torch源码方便算子开发
  • 方便后续做torch 模型性能开发

基本介绍

代码库

  • https://github.com/pytorch/pytorch
  • 在这里插入图片描述

模块介绍

  • aten: A Tensor Library的缩写。与Tensor相关的内容都放在这个目录下。如Tensor的定义、存储、Tensor间的操作(即算子/OP)等
    在这里插入图片描述
    可以看到在aten/src/Aten目录下,算子实现都在native/目录中。其中有CPU的算子实现,以及CUDA的算子实现(cuda/)等

  • torch: 即PyTorch的前端代码。我们用户在import torch时实际引入的是这个目录。
    其中包括前端的Python文件,也包括高性能的c++底层实现(csrc/)。为实现Python和c++模块的打通,这里使用了pybind作为胶水。在python中使用torch._C.[name]实际调用的就是libtorch.so中的c++实现,而PyTorch在前端将其进一步封装为python函数供用户调用

  • c10、caffe2:移植caffe后端,c10指的是caffe tensor library,相当于caffe的aten。
    PyTorch1.0完整移植了caffe2的源码,将两个项目进行了合并。引入caffe的原因是Pytorch本身拥有良好的前端,caffe2拥有良好的后端,二者在开发过程中拥有大量共享代码和库。简而言之,caffe2是一个c++代码,实现了各种设备后端逻辑

  • tools:用于代码自动生成(codegen),例如autograd根据配置文件实现反向求导OP的映射。

  • scripts:一些脚本,用于不同平台项目构建或其他功能性脚本

小结

  • PyTorch源码中,最重要的两个目录是aten和torch目录
  • aten(A Tensor Library)目录主要是和Tensor相关实现的目录,包括算子的具体实现
  • torch目录是PyTorch前端及其底层实现,用户import torch即安装的这个目录

torch前端与后端

  • PyTorch 中,前端指的是 PyTorch 的 Python 接口,

  • 后端指的是 PyTorch 的底层 C++ 引擎,它负责执行前端指定的计算

  • 后端引擎也负责与底层平台(如 GPU 和 CPU)进行交互,并将计算转换为底层平台能够执行的指令

  • 在这里插入图片描述在这里插入图片描述

  • 编译后的torch前端接口没有csrc后端接口,该部分c++内容(csrc目录)并没有被复制过来,而是以编译好的动态库文件(_C.cpython-*.so)

前后端交互流程

  • 我们以torch.Tensor为例
import torch
torch.Tensor

在这里插入图片描述
在这里插入图片描述

结论是对应实现在 torch/csrc/autograd/python_variable.cpp中,而这个是通过编译后的so包实现_C调用,因为pyi是一个python存根文件,只有定义没有实现,实现都在python_variable.cpp中

  • 看看对应c++的实现逻
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

小结

  • PyTorch前端主要是python API,在设计上采用Pythonic式的编程风格,可以让用户像使用python一样使用PyTorch
  • 而后端主要指C++ API,其对外提供的C++接口,也可以一定程度上实现PyTorch的大部分功能,而且更适用于嵌入式等场景
  • 而前端主要是通过pybind调用的后端c++实现,具体是c++被编译成_C.[***].so动态库,然后python调用torch._C实现调用c++中的函数

动态图与静态图

一个主流的训练框架需要有两大特征:

  • 实现类似numpy的张量计算,可以使用GPU进行加速;

  • 实现带自动微分系统的深度神经网络

静态图

  • 在TensorFlow1.x中,我们如果需要执行计算,需要建立一个session,并执行session.run()来执行
import tensorflow as tf

a = tf.ones(5)
b = tf.ones(5)
c = a + b
sess = tf.Session()
print(sess.run(c))
  • 其整个过程其实是将计算过程构成了一张计算图,然后运行这个图的根节点。这样先构成图,再运行图的方式我们称为静态图或者图模式

动态图

  • 在PyTorch中,我们可以在计算的任意步骤直接输出结果(当然最新的ensorflow已经支持动态模式)
  • PyTorch每一条语句是同步执行的,即每一条语句都是一个(或多个)算子,被调用时实时执行。这种实时执行算子的方式我们称为动态图或算子模式
import tensorflow as tf

a = tf.ones(5)
b = tf.ones(5)
c = a + b
print(c) # tf.Tensor([2. 2. 2. 2. 2.], shape=(5,), dtype=float32)
import torch

a = torch.ones(5)
b = torch.ones(5)
c = a + b
print(c) # tensor([2., 2., 2., 2., 2.])

小结

  • 动态图的优点显而易见,可以兼容Python式的编程风格,实时打印编程结果,用户友好性做到最佳;
  • 静态图则在性能方面有一定优势,即在整个图执行前,可以将整张图进行编译优化,通过融合等策略改变图结构,从而实现较好的性能
  • PyTorch原生支持动态图,但是也在静态图方面做了诸多尝试,例如 torchscript(jit.script、jit.trace)、TorchDynamo、torch.fx、LazyTensor

图原理

在这里插入图片描述

动态图&静态图&dispatch原理解读视频

动态图

  • 首先PyTorch的动态图是从Python源码下降,拆分成多个python算子调用,具体调用到tensor的OP。经过pybind转换到c++,并通过dispatch机制选择不同设备下的算子实现,最终实现调用的底层设备实现(如Nvidia cudnn、intel mkl等)

静态图

jit.script

  • jit.script是在python源码角度分析function的源码,将python code转换为图(torchscript IR格式)。由于是直接从python源码转的,因此有许多python语法无法完备支持,存在转换失败的可能性

jit.trace

  • jit.trace则是在c++层面获取算子,在算子调用时记录成图(torchscript IR格式)。由于需要下降到c++,因此需要输入一遍数据真正“执行”一遍。而获取的图具有确定性,即如果图存在分支,则只能被trace记录其中一个分支的计算路线

torch.fx

  • python层面算子调用时记录的算子,输出是fx IR格式的图

LazyTensor

  • 在算子调用时记录成的图,该调用会截获正常算子的运行,在用户指定同步时再整体运行已积累的图

TorchDynamo

  • 将python源码转变成二进制后,通过分析二进制源码,获取分析的算子和图。最新的PyTorch1.14(2.0)中将其作为torch.compile()的主要路线

算子支持与dispatch机制

  • 小结训练框架最重要的特点是:

    • 支持类似numpy的张量计算,可以使用GPU加速;
    • 支持带自动微分系统的深度神经网络;
    • 原生支持动态图执行

    针对以上问题,提出3个问题:

    • PyTorch如何支持CPU、GPU等诸多设备的?
    • PyTorch如何实现自动微分的?
    • 动态图的原理是什么?

动态图Dispatch机制

import torch

a = torch.randn(5, 5)
b = torch.randn(5, 5)
c = a.add(b)
print(c.device)  # cpu

a = a.to("cuda")
b = b.to("cuda")
c = a.add(b)
print(c.device)  # cuda
  • 上述示例中,a.add(b)这个算子,无论是cpu设备的tensor还是gpu设备的tensor,都可以得以支持
  • 为什么同一个算子在不同设备上都能运行呢?

dispatch机制

  • 文档:https://pytorch.org/tutorials/advanced/dispatcher.html

原理

在这里插入图片描述
在这里插入图片描述

  • 我们可以将Dispatch机制看做一个二维的表结构。其一个维度是各类设备(CPU、CUDA、XLA、ROCM等等),一个维度是各类算子(add、mul、sub等等)。
  • PyTorch提供了一套定义(def)、实现(impl)机制,可以实现某算子在某设备(dispatch key)的绑定
  • aten/src/ATen/core/NamedRegistrations.cpp 算子注册机制
    在这里插入图片描述

例如m.impl()中就是对dispatch key为CPU时neg算子的实现绑定,其绑定了neg_cpu()这个函数
大多数情况我们只需要实现m.impl,并绑定一个实现函数即可

  • 除了m.def以及m.impl之外,还有m.fallback作为回退
    在没有m.impl实现的情况下,默认回退的实现(例如fallback回cpu实现)。这样我们将不需要对cuda实现100%的算子实现,而是优先实现高优先级的算子,减少新设备情况下的开发量,而未被实现的算子则默认被fallback实现

  • 实现一个定义算子add覆盖原始add算子(todo)

  • 算子配置文件native_functions.yaml
    PyTorch中采用了算子配置文件aten/src/ATen/native/native_functions.yaml,配合codegen模块自动完成整个流程
    也就是多有的自动注册流程会基于当前这个yaml配置文件自动生成算子注册方法与python bind实现
    在这里插入图片描述

举例说明

以dot算子为例

  • 配置
    在这里插入图片描述
  • 算子实现
    在这里插入图片描述
    上诉代码手动编译后,由codegen会自动生成def、impl的实现,也会自动生成pybind的实现
  • build文件夹找到自动生成的代码 pytorch/build/aten/src/ATen/RegisterCPU.cpp torch/csrc/autograd/generated/python_variable_methods.cpp

反向传播

  • dispatch实际是前向算子

  • 类似的也有反向算子,配置文件derivatives.yaml,其位于tools/autograd/derivatives.yaml
    在这里插入图片描述
    可以看到,每一个算子以“- name:”开头。
    然后还包含一个result字段,这个字段其实就是这个算子的求导公式
    前向算子会利用codegen自动生成注册部分的代码。同理,反向算子也可以根据算子微分注册表自动生成dispatch注册,然后被绑定到Python的函数中
    有关梯度计算请参考

举例说明
  • 配置
    在这里插入图片描述
    最后利用codegen根据算子微分注册表自动生成dispatch注册,然后被绑定到Python的函数中

动态图执行过程

  • 前向过程
import torch

a = torch.ones(5, 5)
b = torch.ones(5, 5)
c = a + b
print(c)

实际上在每执行一条python代码时,前向传播的算子都会被实时调用执行
在用户调用某算子(例如dot时),其实调用的是Tensor下的dot()函数实现。其具体实现在c++中,经过pybind和dispatch(选择设备)机制后定位带at::native::dot()函数。而后对于CPU来说,可以调用intel MKL库的mkldnn_matmul()实现

  • 反向过程
import torch

a = torch.ones(5, 5, requires_grad=True)
b = torch.ones(5, 5, requires_grad=True)
c = (a + b).sum()
c.backward()
print(c)
print(c.grad_fn)
# tensor(50., grad_fn=<SumBackward0>)
# <SumBackward0 object at 0x0000015E8DA2A730>

在执行loss.backward()时,实际调用执行的是各中间tensor的grad_fn,由于反向计算时会组成一个由grad_fn为节点,next_functions为边的反向图,因此如何高效执行这个图成为一个问题
为了解决这个问题,引入了根据设备数建立的线程池调度引擎

总结

在这里插入图片描述

  • 源码编译:https://github.com/pytorch/pytorch/tree/main#adjust-build-options-optional
# 拉取依赖
git clone --recursive https://github.com/pytorch/pytorch
cd pytorch
# if you are updating an existing checkout
git submodule sync
git submodule update --init --recursive

# 编包
export CMAKE_PREFIX_PATH=${CONDA_PREFIX:-"$(dirname $(which conda))/../"}
python setup.py build --cmake-only
ccmake build  # or cmake-gui build

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1178514.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

StripedFly恶意软件:悄无声息运行5年,感染百万设备

导语&#xff1a;最近&#xff0c;俄罗斯网络安全公司Kaspersky发布的一项调查显示&#xff0c;一种名为StripedFly的高级恶意软件伪装成加密货币挖矿程序&#xff0c;悄无声息地在全球范围内运行了超过5年&#xff0c;感染了100万台设备。这是一种复杂的模块化框架&#xff0c…

【Unity实战】最全面的库存系统(二)(附源码)

文章目录 先来看看最终效果前言箱子库存箱子存储物品玩家背包快捷栏满了,物品自动加入背包修复开着背包拾取物品不会刷新显示的问题将箱子库存和背包分开,可以同时打开源码完结先来看看最终效果 前言 本期紧跟着上期,继续来完善我们的库存系统,实现箱子库存和人物背包 箱…

RocketMq简介及安装、docker安装rocketmq、安装rocketmq可视化管理端

前言 本文主要简单介绍rocketmq及使用docker安装rocketmq的方法。 rocketmq简介 rocketmq有两部分&#xff0c;nameserver和broker&#xff0c;nameserver用来维护broker的地址、向生产者、消费者推送broker的最新地址&#xff1b;broker用来存储、转发消息&#xff1b;也就…

Java根据一个List内Object的两个字段去重

背景 在Java开发过程中&#xff0c;我们经常会遇到需要对List进行去重的需求。 其中常见的情况是&#xff0c;将数组去重&#xff0c;或者将对象依据某个字段去重。这两种方式均可用set属性进行处理。 今天讨论&#xff0c;有一个List&#xff0c;且其中的元素是自定义的对象&…

Linux学习第34天:Linux LCD 驱动实验(一):星星之火可以燎原

Linux版本号4.1.15 芯片I.MX6ULL 大叔学Linux 品人间百味 思文短情长 LCD显示屏是由一个一个的像素点构成的。当你能控制一个像素点的亮暗及颜色变化的时候&#xff0c;你就能让LCD显示瓶显示五颜六色的整幅图案。甚至可以让LCD屏幕…

uboot启动linux kernel的流程

目录 前言流程图autoboot_commandrun_command_listdo_bootmdo_bootm_statesdo_bootm_linuxboot_prep_linuxboot_jump_linux 前言 本文在u-boot启动流程分析这篇文章的基础上&#xff0c;简要梳理uboot启动linux kernel的流程。 流程图 其中&#xff0c; autoboot_command位于…

合成数据的被需要的5 个重要原因

若要训练机器学习模型&#xff0c;需要数据。数据科学任务通常不是 Kaggle 竞赛&#xff0c;在竞赛中&#xff0c;你有一个很好的大型策划数据集&#xff0c;并预先标记。有时&#xff0c;您必须收集、组织和清理自己的数据。在现实世界中收集和标记数据的过程可能非常耗时、繁…

手拿5份offer,最高18k! 95后艺术生转行后台网优,这个火花有点大!

当艺术生碰上理工科&#xff0c;会有怎样的火花&#xff1f;在大众的刻板认知里&#xff0c;艺术和理工科就像两条很少重合的平行线&#xff0c;双方从业者在自己的行业下按部就班&#xff0c;规划未来。 来自东北长春的W同学却打破了常人的认知&#xff0c;身为美术老师的他却…

沿面闪络放电测量装置中的真空度精密控制解决方案

摘要&#xff1a;针对现有低气压环境下沿面闪络测试中存在真空度无法精确控制所带来的一系列问题&#xff0c;特别是针对用户提出的对现有沿面闪络试验装置的真空控制系统进行技术改造要求&#xff0c;本文提出了相应的技改方案&#xff0c;技改方案采用基于动态平衡法的电动针…

民生银行与CRM系统的无代码开发集成,助力用户运营

连接民生银行与CRM系统的无代码开发集成 中国民生银行股份有限公司&#xff0c;成立于1996年&#xff0c;是一家全国性股份制商业银行。民生银行拥有强大的技术实力和丰富的业务经验&#xff0c;通过与各类企业进行深度合作&#xff0c;帮助企业实现财务管理和客服系统的优化运…

BUUCTF easycap 1

BUUCTF:https://buuoj.cn/challenges 题目描述&#xff1a; 下载附件&#xff0c;解压得到一个.pcap文件。 密文&#xff1a; 解题思路&#xff1a; 1、这道题和它的名字一样&#xff0c;真的很easy。双击easycap.pcap文件&#xff0c;打开Wireshark。在Wireshark中&#xf…

【软件工程】程序流程图之绘图工具和教程推荐

2023年11月6日&#xff0c;周一晚上 目录 绘图工具推荐教程推荐 绘图工具推荐 我推荐使用开源免费的draw.io要绘制程序流程图 draw.io网页版地址&#xff1a;Flowchart Maker & Online Diagram Software draw.io桌面版下载地址&#xff1a;GitHub - jgraph/drawio-desk…

MySQL的备份恢复

数据备份的重要性 1.生产环境中&#xff0c;数据的安全至关重要 任何数据的丢失都会导致非常严重的后果。 2.数据为什么会丢失 &#xff1a;程序操作&#xff0c;运算错误&#xff0c;磁盘故障&#xff0c;不可预期的事件&#xff08;地震&#xff0c;海啸&#xff09;&#x…

使用cpolar配合Plex搭建私人媒体站并实现远程访问

文章目录 1.前言2. Plex网站搭建2.1 Plex下载和安装2.2 Plex网页测试2.3 cpolar的安装和注册 3. 本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 1.前言 用手机或者平板电脑看视频&#xff0c;已经算是生活中稀松平常的场景了&#xff0c;特别是各…

Nginx默认会自动忽略请求头Headers里带下划线_的参数

起因&#xff1a;该接口设置了必须要传送app_code和app_secret才能正常访问。实际我在本地环境测试中&#xff0c;发现该接口是正常访问的&#xff0c;但是部署到正式系统之后发现&#xff0c;该接口一直提示app_code和app_secret不能为空。 后续排查&#xff1a;发现正式系统…

德博能源、西门子能源、霍尼韦尔等出席2023中国可持续生物燃料峰会

会议背景 可持续燃料是由可再生和/或替代原料生产的&#xff0c;如植物、蔬菜或工业废料的燃料总称。与传统化石燃料相比&#xff0c;可持续燃料可以帮助减少温室气体和碳排放&#xff0c;这有助于保护自然环境。采用可持续燃料可以为航空、重型公路货运和海运等脱碳更复杂的部…

广联达OA存在信息泄露漏洞复现

文章目录 广联达OA存在信息泄露漏洞复现0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.复现 0x06 修复建议 广联达OA存在信息泄露漏洞复现 0x01 前言 免责声明&#xff1a;请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用…

二叉平衡搜索树-AVL树

目录 1. avl树的概念2. 树结点的定义3. 结点的插入3.1 左单旋3.2 右单旋3.3 右左双旋3.4 左右双旋 4. 结点的删除(了解)5. 整体代码 1. avl树的概念 前面学习过二叉搜索树&#xff0c;理想状态下虽可以缩短查找的效率&#xff0c;但如果数据有序或接近有序依次插入后二叉搜索树…

C++基础——类与对象

1 概述 C是面向对象的语言&#xff0c;面向对象语言三大特性&#xff1a;封装、继承、多态。 C将万事万物抽象为对象&#xff0c;对象上有其属性和行为。 2 封装 2.1 封装的意义 封装是面向对象的三大特性之一&#xff0c;封装将属性和行为作为一个整体&#xff0c;对属性和…

顺丰函证通API集成,无代码开发连接CRM和电商平台

1. 顺丰&#xff1a;全球第四大快递公司的无代码开发连接 顺丰是全球第四大快递公司&#xff0c;秉承 “以用户为中心&#xff0c;以需求为导向&#xff0c;以体验为根本” 的产品设计思维。顺丰不仅在国内市场深耕&#xff0c;而且横向拓展多元业务领域&#xff0c;纵深完善产…