征程6 工具链常用工具和 API 整理(含新手示例)

news2024/10/3 12:40:29

1.引言

征程6 工具链目前已经提供了比较丰富的集成化工具和接口来支持模型的移植和量化部署,本帖将整理常用的工具/接口以及使用示例来供大家参考,相信这篇文章会提升大家对 征程6 工具链的使用理解以及效率。

干货满满,欢迎访问

2.hb_config_generator

hb_config_generator 是用于获取模型编译最简 yaml 配置文件、包含全部参数默认值的 yaml 配置文件的工具。使用示例:

hb_config_generator --full-yaml --model model.onnx --march nash-e

3.hb_compile

hb_compile是 PTQ 中集模型验证、模型修改和编译工具。使用前确保您的环境中已经安装了 horizon_tc_ui,horizon_nn(后面将更新为 hmct)和 hbdk4-compiler。相关使用示例如下:

3.1 模型验证

#单输入

hb_compile --march ${march} \           
           --proto ${caffe_proto} \
           --model ${caffe_model/onnx_model} \
           --input-shape ${input_node_name} ${input_shape} 
#多输入
hb_compile --march ${march} \
           --proto ${caffe_proto} \
           --model ${caffe_model/onnx_model} \
           --input-shape input.0 1x1x224x224
           --input-shape input.1 1x1x224x224
           --input-shape input.2 1x1x224x224        

3.2 模型修改

出于某些极大尺寸输入场景下的极致性能需求,部分输入/输出端的量化和转置操作可以融合在数据前处理中一并完成。 此时可以选择在 yaml 中配置 remove_node_type 参数,然后使用 hb_compile 工具移除这些节点,同时 hb_compile 工具还支持对 HBIR 模型的编译。

hb_compile --config ${config_file} \
           --model ${model.bc} 

3.3 模型量化编译

使用 hb_compile 工具对模型进行量化编译时,提供两种模式,快速性能评测模式(开启 fast-perf)和传统模型转换编译模式(不开启 fast-perf)。

fast-perf

快速性能评测模式开启后,会在转换过程中生成可以在板端运行最高性能的 hbm 模型:

hb_compile --fast-perf --model ${caffe_model/onnx_model} \
           --proto ${caffe_proto} \
           --march ${march} \ 
           --input-shape ${input_node_name} ${input_shape} 
传统方式
hb_compile --config ${config_file}  

4.hb_verifier

hb_verifier 是一致性验证工具,支持进行 onnx 模型之间、onnx 模型与 hbir 模型、hbir 模型与 hbir 模型之间的余弦相似度对比, bc 与 Hbm 模型之间的输出一致性对比。

在这里插入图片描述

使用示例如下:

  1. ONNX 模型与 ONNX 模型之间进行余弦相似度对比。

以模型优化阶段模型 optimized_float_model.onnx 与模型校准阶段模型 calibrated_model.onnx 为例:

hb_verifier -m googlenet_optimized_float_model.onnx,googlenet_calibrated_model.onnx -i input.npy 

2.ONNX 模型与 HBIR 模型之间进行余弦相似度对比。

以模型优化阶段模型 optimized_float_model.onnx 与模型量化阶段定点模型 quantized_model.bc 为例:

hb_verifier -m googlenet_optimized_float_model.onnx,googlenet_quantized_model.bc -i input.npy

3.HBIR 模型与 HBM 模型之间进行输出一致性对比。

以模型量化阶段定点模型 quantized_model.bc 与模型编译阶段模型 googlenet.hbm为例:

hb_verifier -m googlenet_quantized_model.bc,googlenet.hbm -i runtime_input.npy

5.hb_model_info

hb_model_info 是用于解析*.hbm 和 *.bc 编译时的依赖及参数信息、 *.onnx 模型基本信息,同时支持对 *。bc 可删除节点进行查询的工具。使用示例如下:

#输出bc模型/hbm的输入输出信息
hb_model_info model.bc/model.hbm
#输出bc模型/hbm的输入输出信息并在隐藏文件夹生成onnx/prototxt
hb_model_info model.bc/model.hbm -v

6.伪量化 bc 导出

6.1ONNX export

编译器的onnx.export接口提供了可以将 onnx 模型转为 bc 模型的功能,使用示例如下:

import onnx
from hbdk4.compiler.onnx import export
from hbdk4.compiler import convert,save
#加载onnx模型
ptq_onnx = onnx.load("xx_ptq_model.onnx")
#export为bc模型
bc_model = export(ptq_onnx)
#保存bc模型
save(bc_model,"model.bc")

6.2Torch export

编译器的torch.export接口提供了可以将 torch 模型转为 bc 模型的功能,使用示例如下:

import torch
import torchvision
from hbdk4.compiler.torch import statistics as torch_statistics
from hbdk4.compiler.torch import export
from hbdk4.compiler import save
# 载入浮点resnet
module = torchvision.models.resnet18(pretrained=True)
example_input = torch.rand(1, 3, 224, 224)
module = torch.jit.trace(module, example_input)

torch_statistics(module, example_input) # 打印torch op列表和数量
# 将torchscript导出为bc
exported_module = export(module, example_input, name="TorchModel", input_names=["image"], output_names=["pred"]) 
save(exported_modul,"model.bc")

或者使用地平线 QAT 封装的编译器 export 接口(horizon_plugin_pytorch.quantization.hbdk4.export)来导出伪量化 bc,接口介绍如下:

horizon_plugin_pytorch.quantization.hbdk4.export(model: Module, example_inputs: Any, *, name: str = 'forward', input_names: Any | None = None, output_names: Any | None = None, input_descs: Any | None = None, output_descs: Any | None = None)
Export nn.Module to hbir model.
Parameters:
--model – Input model.#输入的伪量化模型,需要是eval()后的
--example_inputs – Example input for tracing.#给定的作为trace的输入
--name – The name of func in exported module. Users can get the func by getattr(hbir_module, name).#导出的bc的名称
--input_names – Set hbir inputs with given names, should have the same structure with example_inputs.#导出的bc的输入名称
--output_names – Set hbir outputs with given names, should have the same structure with model output.#导出的bc的输出名称
--input_descs – Set hbir inputs with given descriptions, should have the same structure with example_inputs.#导出的bc的输入描述信息,用户可自定义,板端部署时使用
--output_descs – Set hbir outputs with given descriptions, should have the same structure with model output.##导出的bc的输出描述信息,用户可自定义,板端部署时使用,例如anchor的score信息等
Returns: Hbir model wrapped with Module.

7.bc 模型加载、修改、定点化、编译、perf

编译器提供了 bc 模型加载、定点化、编译的相关接口。

在这里插入图片描述

下面将以一个完整的示例来讲述以上接口的使用:

from hbdk4.compiler.torch import export
from hbdk4.compiler import statistics, save, load,visualize,compile
from hbdk4.compiler.march import March
from hbdk4.compiler import convert,hbm_perf 
#使用load加载伪量化bc
model=load("qat.bc")
#使用visualize生成onnx可视化bc
visualize(model, "qat_ori.onnx") 
func = model.functions[0]
#batch拆分,此过程为batch nv12输入的必须操作
batch_input = ["_input_0"] 
for input in func.inputs[::-1]:
    for name in batch_input[::-1]:
        if name in input.name:
            input.insert_split(dim=0)
#可视化已做完batch拆分的bc
visualize(model, "qat_split_batch.onnx")
#插入预处理节点
func = model.functions[0]
#pyramid_input为模型中NV12输入的name,可以通过可视化qat_split_batch.onnx获取
#ddr_input为模型中ddr输入的name,可以通过可视化qat_split_batch.onnx获取
pyramid_input = ['_input_0_0','_input_0_1','_input_0_2','_input_0_3','_input_0_4','_input_0_5'] # 部署时数据来源于pyramid的输入节点名称列表
ddr_input = "_input_1"     # 部署时数据来源于ddr的输入节点名称列表
#插入nv12节点
for input in func.inputs[::-1]:
    print(input.name)
    if input.name in pyramid_input:
        #pyramid&resizer 只支持 NHWC 的 input layout
        input.insert_transpose(permutes=[0, 3, 1, 2])
        # 插入前处理节点,这里模型训练是YUV444图像,所以mode配置为None
        input.insert_image_preprocess(mode=None, divisor=1, mean=[128, 128, 128], std=[128, 128, 128])
        input.insert_image_convert("nv12")
        print("-----insert nv12 success-----")
#插入resizer节点
#for input in func.inputs[::-1]:
    #if input.name in resizer_input:
        # pyramid&resizer 只支持 NHWC 的 input layout
        #node = input.insert_transpose(permutes=[0, 3, 1, 2])
        # 插入前处理节点,具体可参考下一节的说明
        #node = input.insert_image_preprocess(mode=None, divisor=1, mean=[128, 128, 128], std=[128, 128, 128])
        #node.insert_roi_resize("nv12")
#插入transpose节点
for input in func.inputs[::1]:
    if input.name == ddr_input:
        #layerout变换:NCHW->NHWC
        input.insert_transpose(permutes=[0, 2, 3, 1])
#可视化插入预处理节点后的模型
visualize(model, "qat_preprocess.onnx") 
#将插入预处理节点后hbir保存为bc
save(model,"qat_preprocess.bc")
#将伪量化bc convert为定点bc
#配置advice参数显示算子相关信息
quantized_model=convert(model,'nash-e',advice=True,advice_path='./')
#可视化定点bc 
visualize(quantized_model, "quantized_ori.onnx")
#删除量化/反量化节点
# convert后的bc的首尾部默认包含量化反量化节点,可以进行手工删除
node_type_mapping = {
    "qnt.quantize": "Quantize",
    "qnt.dequantize": "Dequantize",
    "hbir.transpose": "Transpose",
    "hbtl.call::quant::qcast": "Quantize",
    "hbtl.call::quant::dcast": "Dequantize",
    "hbtl.call::native::Transpose": "Transpose",
    "hbir.cast_type": "Cast",
    "hbir.reshape": "Reshape",
    "hbtl.call::native::Cast": "Cast",
    "hbtl.call::native::Reshape": "Reshape",
}
def get_type_for_hbtl_call(attached_op):
    schema = attached_op.schema
    node_type = attached_op.type + "::" + \
        schema.namespace + "::" + schema.signature
    return node_type
def remove_op(func, op_type=None, op_name=None):
    for loc in func.inputs + func.outputs:
        if not loc.is_removable[0]:
            continue
        attached_op = loc.get_attached_op[0]
        removed = None
        # 目前hbir模型中的op name格式还未完全确定,暂建议使用op type来删除节点
        attached_op_name = attached_op.name
        if op_name and attached_op.name in op_name:
            removed, diagnostic = loc.remove_attached_op()
        elif op_type and attached_op.type in node_type_mapping.keys() \
                and node_type_mapping[attached_op.type] in op_type:
            removed, diagnostic = loc.remove_attached_op()
        elif attached_op.type == "hbtl.call":
            # 由于同一type的op在后端可能对应多种实现,因此采用“签名”的方式确认具体类型
            node_type = get_type_for_hbtl_call(attached_op)
            if op_type and node_type in node_type_mapping.keys() \
                    and node_type_mapping[node_type] in op_type:
                removed, diagnostic = loc.remove_attached_op()
        if removed is True:
            print(f'Remove node', op_type, "successfully")
        if removed is False:
            raise ValueError(f'Remove node type', op_type,
                f"Failed when deleting {attached_op.name} operator,"
                f"error: {diagnostic}")
func = quantized_model[0]   
# 删除reshape节点
#remove_op(func, op_type="Reshape")
#remove_op(func, op_type="Cast")
# 删除量化反量化节点
remove_op(func, op_type="Dequantize")
remove_op(func, op_type="Quantize")
# 删除max后的reshape节点
#remove_op(func, op_type="Reshape")
# 删除Transpose节点
#remove_op(func, op_type="Transpose")
print("-----remove_quant_dequant OK-----")
save(quantized_model,"quantized_modified.bc")
visualize(quantized_model, "quantized_remove_dequa.onnx")

#使用compile编译定点bc为hbm
print("-----start to compile model-----")
#
params = {'jobs': 48, 'balance': 100, 'progress_bar': True,
          'opt': 2,'debug':True}
compile(
  quantized_bc, 
  march="nash-e",
  path="model.hbm",
  **params
)
print("-----end to compile model-----")
#模型性能预估
print("-----start to perf model-----")
save_path="./perf"
hbm_perf('model.hbm',save_path)

这样,我们就完成了伪量化 bc 的加载、修改、量化编译和性能预估的过程。

注意:此篇文章的接口使用是以 OE3.0.17 为 base,如有更新,欢迎 comments!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2186222.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows 10再次成为Steam上最受欢迎的操作系统 Linux用户比例略有下降

上个月,Valve平台上使用Windows 11的玩家自三年前推出以来首次取代了 Windows 10。 然而,这一变化是短暂的–仅仅一个月后,Windows 10 又回到了第一的位置,但持续时间也可能不会太长。 根据 Valve 的数据,64 位 Window…

【动态规划】完全背包问题

完全背包问题 1. 完全背包 点赞👍👍收藏🌟🌟关注💖💖 你的支持是对我最大的鼓励,我们一起努力吧!😃😃 1. 完全背包 题目链接: DP42 【模板】完全背包 题目分…

微积分-反函数6.4(对数函数的导数)

在本节中,我们将找到对数函数 y log ⁡ b x y \log_b x ylogb​x 和指数函数 y b x y b^x ybx 的导数。我们从自然对数函数 y ln ⁡ x y \ln x ylnx 开始。我们知道它是可导的,因为它是可导函数 y e x y e^x yex 的反函数。 d d x ( ln ⁡ x…

计算机毕业设计 农场投入品运营管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

【JAVA开源】基于Vue和SpringBoot的医院管理系统

本文项目编号 T 062 ,文末自助获取源码 \color{red}{T062,文末自助获取源码} T062,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

Stream流的中间方法

一.Stream流的中间方法 注意1:中间方法,返回新的Stream流,原来的Stream流只能使用一次,建议使用链式编程 注意2:修改Stream流中的数据,不会影响原来集合或者数组中的数据 二.filter filter的主要用法是…

Win10/11电脑怎么折腾都进不去Bios?看这!

前言 这段时间有小伙伴反馈,按照很早之前小白写的进Bios教程,死活进不去Bios。 所以这个教程今天又更新了! 咱们有一说一:有些机器的Bios是真的不知道快捷键是什么的。但按照今天的这篇,我想应该没有人进不去电脑的…

60 序列到序列学习(seq2seq)_by《李沐:动手学深度学习v2》pytorch版

系列文章目录 文章目录 系列文章目录一、理论知识比喻机器翻译Seq2seq编码器-解码器细节训练衡量生成序列的好坏的BLEU(值越大越好)总结 二、代码编码器解码器损失函数训练预测预测序列的评估小结练习 一、理论知识 比喻 seq2seq就像RNN的转录工作一样,非常形象的比…

YOLOv11改进 | 注意力篇 | YOLOv11引入Polarized Self-Attention注意力机制

1. Polarized Self-Attention介绍 1.1 摘要:像素级回归可能是细粒度计算机视觉任务中最常见的问题,例如估计关键点热图和分割掩模。 这些回归问题非常具有挑战性,特别是因为它们需要在低计算开销的情况下对高分辨率输入/输出的长期依赖性进行…

最新BurpSuite2024.9专业中英文开箱即用版下载

1、工具介绍 本版本更新介绍 此版本对 Burp Intruder 进行了重大改进,包括自定义 Bambda HTTP 匹配和替换规则以及对扫描 SOAP 端点的支持。我们还进行了其他改进和错误修复。 Burp Intruder 的精简布局我们对 Burp Intruder 进行了重大升级。现在,您可…

0基础学习CSS(十四)填充

CSS padding(填充) CSS padding(填充)是一个简写属性,定义元素边框与元素内容之间的空间,即上下左右的内边距。 padding(填充) 当元素的 padding(填充)内边距…

深入理解 Solidity 中的支付与转账:安全高效的资金管理攻略

在 Solidity 中,支付和转账是非常常见的操作,尤其是在涉及资金的合约中,比如拍卖、众筹、托管等。Solidity 提供了几种不同的方式来处理 Ether 转账,包括 transfer、send 和 call,每种方式的安全性、灵活性和复杂度各有…

【通配符】粗浅学习

1 背景说明 首先要注意,通配符中的符号和正则表达式中的特殊符号具备不同的匹配意义,例如:*在正则表达式中表示里面是指匹配前面的子表达式0次或者多次,而在通配符领域则是表示代表0个到无穷个任意字符。 此外,要注意…

大学城就餐推荐系统小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,餐厅信息管理,美食类型管理,餐厅美食管理,评价信息管理,系统管理 微信端账号功能包括:系统首页,餐厅信息&a…

JavaScript for循环语句

for循环 循环语句用于重复执行某个操作,for语句就是循环命令,可以指定循环的起点、终点和终止条件。它的格式如下 for(初始化表达式;条件;迭代因子){语句} for语句后面的括号里面,有三个表达式 初始化表达式(initialize):确定循环变量的初始…

OpenAI开发者大会派礼包:大幅降低模型成本 AI语音加持App

美东时间10月1日周二,OpenAI举行了年度开发者大会DevDay,今年的大会并没有任何重大的产品发布,相比去年大会显得更低调,但OpenAI也为开发者派发了几个大“礼包”,对现有的人工智能(AI)工具和API…

Spring(学习笔记)

<context:annotation-config/>是 Spring 配置文件中的一个标签&#xff0c;用于开启注解配置功能。这个标签可以让 Spring 容器识别并处理使用注解定义的 bean。例如&#xff0c;可以使用 Autowired 注解自动装配 bean&#xff0c;或者使用 Component 注解将类标记为 bea…

四.网络层(上)

目录 4.1网络层功能概述 4.2 SDN基本概念 4.3 路由算法与路由协议 4.3.1什么是路由协议&#xff1f; 4.3.2什么是路由算法&#xff1f; 4.3.3路由算法分类 (1)静态路由算法 (2)动态路由算法 ①全局性 OSPF协议与链路状态算法 ②分散性 RIP协议与距离向量算法 4.3.…

netty之Netty使用Protobuf传输数据

前言 在netty数据传输过程中可以有很多选择&#xff0c;比如&#xff1b;字符串、json、xml、java对象&#xff0c;但为了保证传输的数据具备&#xff1b;良好的通用性、方便的操作性和传输的高性能&#xff0c;我们可以选择protobuf作为我们的数据传输格式。目前protobuf可以支…

(作业)第三期书生·浦语大模型实战营(十一卷王场)–书生基础岛第1关---书生大模型全链路开源体系

观看本关卡视频和官网https://internlm.intern-ai.org.cn/后&#xff0c;写一篇关于书生大模型全链路开源开放体系的笔记发布到知乎、CSDN等任一社交媒体&#xff0c;将作业链接提交到以下问卷&#xff0c;助教老师批改后将获得 100 算力点奖励&#xff01;&#xff01;&#x…