昇思MindSpore学习入门-静态图高级编程技巧

news2025/2/24 6:17:06

如何优化编译性能

使用lazy_inline装饰器

神经网络模型的编译过程往往采用默认inline的方式,把层级的代码表达最终展开成一张扁平的计算图,一方面寻求最大的编译优化机会,另一方面也可以简化自动微分以及执行的逻辑。inline后形成的计算图包含了所有的计算节点,可以在更大的范围内进行优化,比如常量折叠、节点融合、并行分析等,也可以更好地实现内存分配,减少内存申请和性能开销。虽然inline优化对于运行期性能提升帮助非常大,但过度inline也带来了编译期的负担。例如随着计算图节点数量膨胀,执行pass的耗时也在急剧增长。

为了减轻inline对编译性能带来的损耗,对于重复调用相同计算单元的场景(典型的场景是在for循环中调用同一个Cell类的不同实例),我们提供了Lazy Inline机制来减少编译时间。

大模型pipeline并行场景

在大模型场景中,编译耗时问题尤为突出,一是大模型的模型结构层次深,节点数多;二是大模型在训练时,由于启用pipeline并行,导致模型规模和节点数进一步加大,如果原来图的规模是O,那开启pipeline并行,单节点图的规模变为(O/X)*Y,其中X为pipeline的stage数量,Y为micro batch的数量。以盘古13B网络为例,计算图中计算节点数量达到13.5万个,单次编译时长可接近3小时。

我们观察到类似盘古的大模型网络结构,是由多层layer组成的,在开启pipeline并行时,各个micro batch的layer层结构是完全一样的。当开启pipeline并行时,PipelineCell使用for循环的方式来多次调用相同结构的layer,代码如下所示:

from mindspore import nn

class PipelineCell(nn.Cell):

    def __init__(self, network, micro_size):

        ...

        self.network = network

        self.micro_size = micro_size

        ...

    def construct(self, ...):

        ...

        for i in range(self.micro_size):

            output = self.network(...)

        ...

如果我们把循环体看作被频繁调用的子图,通过把它标记为Lazy Inline,告知编译器推迟inline处理,那么就可以在编译的大部分阶段大幅度减少计算图节点数量,从而获得性能收益。例如上面的代码,可以保留network实例的子图结构,不inline或者不提前inline。对此,我们提供了@lazy_inline装饰器来实现延迟inline。

以Pangu_alpha网络为例,PipelineCell函数体中处理的network为PanGUAlphaWithLoss类的实例,为实现延迟inline,我们需要对PanGUAlphaWithLoss类的__init__函数加上@lazy_inline装饰器,以标记PanGUAlphaWithLoss类的子图结构需要被保留下来,不做inline或者延迟inline。如下所示:

from mindspore import nn

from mindspore import lazy_inline

class PanGUAlphaWithLoss(nn.Cell):

    @lazy_inline

    def __init__(self, ...):

        ...

    def construct(self, ...):

更加泛化的一般场景

@lazy_inline是Cell::__init__的装饰器,它会以__init__的所有参数生成Cell的cell_init_args属性值,cell_init_args值相同表明Cell类名和初始化参数值是一样的。而对于相同Cell类的实例,它们的weights还可能是不一样的,因此对于用construct(self, x)定义的网络结构,在实际编译时我们可以转换为construct(x, self.cell_init_args, self.trainable_parameters())。对于同一个Cell类的不同实例,如果cell_init_args是相同的,那么这两个实例可以复用同一个网络结构,如下所示:

def construct(self, x)

    reuse_construct(x, self.trainable_parameters())

引入可复用计算图后,具有相同cell_init_args的Cell实例只需编译解析一次。所以对于更加泛化的调用同一个Cell类的不同实例的场景,只要cell_init_args是相同的,我们都可以加上@lazy_inline装饰器来加速编译。例如GPT网络:

from mindspore import nn

from mindspore import lazy_inline

class Block(nn.Cell):

    @lazy_inline

    def __init__(self, config):

        ...

    def construct(self, x, attention_mask, layer_past):

        ...

class GPT_Model(nn.Cell):

    def __init__(self, config):

        ...

        for i in range(config.num_layers):

            self.blocks.append(Block(config))

            ...

        self.num_layers = config.num_layers

    def construct(self, input_ids, input_mask, layer_past):

        ...

        present_layer = ()

        for i in range(self.num_layers):

            hidden_states, present = self.blocks[i](...)

            present_layer = present_layer + (present,)

        ...

GPT的网络结构由多层Block类的不同实例构成,这些Block的初始化参数都是同一个config,所以加上@lazy_inline装饰器后,这些Block实例都可以复用同一个网络结构,而且在大部分的编译阶段都不进行inline,从而可以大幅度减少编译时间。

使用步骤

如上面的例子,在网络脚本中,往需要延迟inline和复用子图结构的Cell类的__init__函数加上@lazy_inline装饰器。

使用限制

  1. Cell 是以Cell的类名和__init__参数值生成Cell实例标识的,这是基于__init__的参数确定Cell 的所有属性,以及construct构图开始时的Cell属性和__init__执行完的属性一致为假设前提,因此Cell与构图有关的属性,在__init__执行完后不能进行更改。例如:

from mindspore import nn

from mindspore import lazy_inline

class Block(nn.Cell):

    @lazy_inline

    def __init__(self, ...):

        self.x = 0

        ...

    def construct(self, ...):

     if self.x == 0:

          ...

     else:

        ...

        ...

class Model(nn.Cell):

    def __init__(self, ...):

        ...

        self.num_layers = 10

        for i in range(self.num_layers):

            self.blocks.append(Block(...)) # 此处Block进行初始化

            ...

        self.blocks[0].x = 1               # 此处在Block初始化后修改Block的属性,会导致该Block无法复用同一份子图

    def construct(self, ...):

         ...

         for i in range(self.num_layers):

            res = self.blocks[i](...)

        ...

如上代码所示,网络Model中的某个Block实例,它的属性x在该实例初始化后被修改了,那么这个Block实例就无法准确复用同一个子图结构了。

  1. 一个Cell类的网络结构包含多个Cell_X类的实例,同时每个Cell_X类的网络结构又包含多个Cell_Y的实例的场景,如果往Cell_XCell_Y类的__init__函数上都加上@lazy_inline,那么只有最外层的Cell_X实例的网络结构被编译成可复用的计算图且被延迟inline,内层的Cell_Y实例的计算图还是会被inline。例如:

from mindspore import nn

from mindspore import lazy_inline

class InnerBlock(nn.Cell):

    @lazy_inline             # InnerBlock不会被延迟inline

    def __init__(self, ...):

        ...

    def construct(self, ...):

        ...

class OuterBlock(nn.Cell):

    @lazy_inline             # OuterBlock将会被延迟inline

    def __init__(self, ...):

        ...

        self.num_layers = 10

        for i in range(self.num_layers):

            self.blocks.append(InnerBlock(...))

    def construct(self, ...):

         ...

         for i in range(self.num_layers):

           res = self.blocks[i](...)

         ...

class Model(nn.Cell):

    def __init__(self, ...):

        ...

        self.num_layers = 10

        for i in range(self.num_layers):

            self.blocks.append(OuterBlock(...))

    def construct(self, ...):

      ...

         for i in range(self.num_layers):

           res = self.blocks[i](...)

        ...

使用HyperMap

使用场景:使用HyperMap替换for循环来优化编译性能。

HyperMap是一个特殊的类,类对象构造时需要传入映射函数f,调用对象时需要传入f的n个参数序列,更多使用方法见:HyperMap。映射函数f必须是MultitypeFuncGraph类型, 可参考MultitypeFuncGraph。在使用for循环批量处理列表元素时,可以通过HyperMap等价语义替换来优化网络编译性能。

使用编译缓存

使用场景:在进行训练或者推理时,如果编译依赖的文件未作任何变更,通过使用编译缓存来缩短编译时间。

编译缓存的本质是存储了网络模型的编译中间过程文件,当网络模型不变时,生产的编译中间过程文件也是一样的,因此可以复用上一次编程产生的中间过程文件。

通过设置context中的enable_compile_cache或环境变量MS_COMPILER_CACHE_ENABLE,可以指定是否保存和加载编译缓存,前者优先级更高。

通过设置context中的compile_cache_path或环境变量MS_COMPILER_CACHE_PATH,可以指定MindSpore编译缓存目录,用于存储图和算子编译过程生成的缓存文件,前者优先级更高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1954354.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ODBC的基本使用

前言 在工作中,使用POWERBI做数据分析报表的时候用到ODBC,对于POWERBI语义模式实现连接数据库必须使用到ODBC,那什么是ODBC? 1.ODBC的基本概念 1.1ODBC 驱动程序 每种数据库都有相应的 ODBC 驱动程序,这些驱动程…

系统报错:由于启动计算机时出现了页面文件配置问题,Windows在你的计算机上创建了一个临时页面文件。所有磁盘驱动器的总页面文件大小可能稍大于你所指定的大小

启动电脑时候,突然弹出系统报错的弹窗: 之前由于C盘爆满时候,根据下面教程进行C盘空间清理,感觉是由于清理导致的。 C盘爆满,教你有效清理,释放出几十G的磁盘空间_c盘满了怎么清理c盘空间-CSDN博客文章浏…

前端开发调试工具推荐分类整理

具体前往:前端调试工具分类整理汇总

Windows-安装WSL踩坑

Windows与windows Server 最近在用一台Windows服务器安装linux子系统,在尝试采用常规命令安装Ubun系统时,一直在报错: 正在安装: Ubuntu 安装过程中出现错误。分发名称: ‘Ubuntu’ 错误代码: 0x8000ffff 两个系统存在不同的安装方法&#x…

Docker镜像是如何管理的

Docker镜像管理 rootfs主要特点分层写时复制内容寻址联合挂载 关键概念registryrepositorymanifestimage和layer 镜像构建commit镜像build构建镜像 镜像分发 Docker镜像是一个只读的容器模板,含有启动Docker容器所需的文件系统结构及其内容,因此是启动一…

【Linux】一些基本指令

文章目录 前言Linux下基本指令Linux下一些常见的通配符Linux下的引号引用whoamiwholswhichaliaswhereisfindtouchmkdirrmdir & rmmancpmvcatmorelessheadtailechodatecalgrepzip & unziptarrz & szuname几个重要的热键关机 前言 在学习操作系统的时候,我…

甲方产品过于平庸该如何编写策划案?

面对甲方产品相对平庸的情况,作为策展新人,你需要发挥创意和策略思维,通过巧妙的策划来挖掘和呈现产品的独特价值,让观众在展馆中依然能找到吸引他们的亮点。 以下是一些建议,希望能帮助你编写出既真实又能吸引眼球的…

linux root登陆,密码正确但,错误提示su: Authentication failure

初开始登陆的时候会显示失败,参考了很多网上的做法,但还是不行,但是,如果用键盘左边那一排数字按键输入,就可以正常登陆(之前用的是右边的九宫格)

学前教育优化算法,原理详解,MATLAB代码免费获取

学前教育优化算法(Preschool Education Optimization Algorithm,PEOA)是一种受学前教育过程中孩童的活动行为启发而提出的元启发式优化算法。学前教育在儿童的早期发展中起着至关重要的作用,并为他们未来的学习旅程奠定基础。作为幼儿学习者发…

C# datetimePicker

1. 直接把控件拉到设计器中,此时不要调整控件的values属性,这样就可以 打开后每次默认显示当天日期。 2. 属性Format long长日期格式默认值short短日期格式Time时间格式custom自定义时间格式在customFormat这个属性设置,比如yyyy-MM-dd HH…

图中的最短环

2608. 图中的最短环 现有一个含 n 个顶点的 双向 图,每个顶点按从 0 到 n - 1 标记。图中的边由二维整数数组 edges 表示,其中 edges[i] [ui, vi] 表示顶点 ui 和 vi 之间存在一条边。每对顶点最多通过一条边连接,并且不存在与自身相连的顶…

入门 PyQt6 看过来(案例)11~ 熊猫展览馆

主题:利用pyqt6实现一个展示萌兰、福宝、金虎等大熊猫的展示案例。 1 界面布局 本案例用到了列表的功能 #定义列表listModelQStringListModel()#列表数据self.list[福宝,萌兰,金虎]#将列表转换列表模式listModel.setStringList(self.list)#列表展示listViewQListVi…

日拱一卒 | JVM

文章目录 什么是JVM?JVM的组成JVM的大致工作流程JVM的内存模型 什么是JVM? 我们知道Java面试,只要你的简历上写了了解JVM,那么你就必然会被问到以下问题: 什么是JVM?简单说一下JVM的内存模型?…

Python中的zip

一、什么是zip()? zip()函数接受任意数量的可迭代对象作为参数,并返回一个迭代器。这个迭代器生成的元素是元组,每个元组包含所有输入可迭代对象中对应位置的元素。 二、基本用法 假设我们有两个列表,一个是学生的名字&#xf…

windows10配置英文输入法的方法

📑打牌 : da pai ge的个人主页 🌤️个人专栏 : da pai ge的博客专栏 ☁️宝剑锋从磨砺出,梅花香自苦寒来 ☁️运维工程师的职责:监…

将TP5链接导入笔影个人博客代码

首先第一步,打开界面 第二步,这里卡住了,无法看到源代码,我们使用其他软件看看源代码 调试乱码,因为没有找到相应的笔影个人博客源码。源码在桌面上。询问百度,说了有的没的一大堆。 尝试的结果就是失败…

Amesim中在现有的元件调出其内部参数使其作为输出进行调用

前言 在实际项目工程应用中,有时需要调用一些元件内部的参数进行应用来实现控制。例如调用电池元件的欧姆内阻计算电池的欧姆产热。 操作案例 例如:车前散热模块,需要调用外部风量参数来控制风机的转速。方法如下: 子模型模块下→选中元件右键→选择sense internal var…

人机环境系统智能的典型特性

人机环境系统智能的典型特性包括:感知与感知能力。智能系统具有感知外界环境的能力,可以通过各种传感器获取数据,如视觉、声音、温度、湿度等信息。这些感知能力使系统能够实时了解环境状态和变化。学习与适应能力。智能系统可以通过学习算法…

C++《类和对象》(中)

一、 类的默认成员函数介绍二、构造函数 构造函数名与类同名内置类型与自定义类型析构函数拷贝构造函数 C《类和对象》(中) 一、 类的默认成员函数介绍 默认成员函数就是⽤⼾没有显式实现,编译器会⾃动⽣成的成员函数称为默认成员函数。 那么我们主要学习的是1&…

2007-2022年 上市公司-创新投入、研发投入数据(原始数据、do文件、参考文献、data等文件)

创新投入是企业通过不断改进和引入新产品来满足市场需求,并以此获得市场竞争优势的关键过程。而研发投入则是企业为推动产品创新所进行的资源投资,涵盖了人力、物力和财力等多个方面。 数据概览 本数据集提供了关于上市公司创新与研发投入的详细观测值…