HiAI Foundation助力端侧音视频AI能力,高性能低功耗释放云侧成本

news2024/10/6 22:23:35

过去三年是端侧AI高速发展的几年,华为在2020年预言了端侧AI的发展潮流,2021年通过提供端云协同的方式使我们的HiAI Foundation应用性更进一个台阶,2022年提供视频超分端到端的解决方案,在2023HDC大会上,HiAI Foundation基于硬件能力的开放,提供更多场景高效能的解决方案。

华为HiAI Foundation提供了高性能AI算子和丰富的AI特性的接口,App直接对应HiAI Foundation的DDK。今年完整支持了HarmonyOS NEXT,开发者无需修改任何代码,只需按照HarmonyOS NEXT的要求重新编译即可运行。同时,在开发者联盟网站有HarmonyOS NEXT指导文档,在Gitee上也开源了对应的Demo,降低大家的集成成本。

今年,华为在原有的基础上,拓展了更多端侧AI场景解决方案。

华为HiAI Foundation是基于硬件创新架构的能力开放,构建了一个高性能的NPU、CPU、GPU算子,同时提供整网融合、AIPP硬化预处理、算子搜索工具、异构计算等多元的基础能力,在硬件创新架构和多元竞争基础的能力上,提供生态开放机制,在生态开放机制上提供对用户开放的接口DDK工具链、模型轻量化、算子库动态升级、开源等等机制。

华为HiAI Foundation主要由以下几个部分构成,首先是HiAI Foundation DDK推理加速平台,它主要完成与上层推理框架的接入,使开发者可以屏蔽底层硬件,能够更加聚焦于模型效果的优化。第二部分是异构计算HCL平台,它主要是使能各个硬件,比如NPU、CPU、GPU。第三部分是提供对应的工具链,包括模型转换工具链、异构调优工具链。同时我们也提供了统一的API,通过一次开发可以做到赋能多形态的设备硬件上运行,并且华为HiAI Foundation可以与HarmonyOS实时融合。

下面以典型AI场景为例,从部署的角度来探索一下华为HiAI Foundation是如何完成这些挑战,并最终实现这些场景的落地。

视觉类加速方案人像分割

我们知道人像分割通常用于视频中的背景替换、长短视频的弹幕穿人玩法等。华为HiAI Foundation通过人像分割,通过AIPP硬化预处理指令、模型量化,使得人像分割达到性能和功耗的业务要求。从视频解码和开通预览流到AIPP推理和GPU渲染,有多个过程参与,华为HiAI Foundation不仅要进行推理,还要完成上下游的深度协同。

在这里插入图片描述
在这里插入图片描述

视频流和开放预览帧到模型,以人像分割为例,人像分割要求的输入是RGB格式,并且输入要求是固定的尺寸,视频解码帧和预览流出来的数据,要求支持图像预处理的指令,并且把它硬化到NPU里面,所以人像分割提供了包括图片缩放resize、图片旋转rotation、色域转换color space convert的能力。基于华为实验室测试结果,实现性能提升20%,模型大小缩小75%,精度损失1%以内,性能提升19%。

第二部分是模型在NPU上的高效算子推理,推理结束之后将结果送到GPU上做渲染。在传统方案中,NPU和GPU通常是操作两块不同的内存,华为HiAI Foundation提供了零拷贝的接口,将NPU和GPU在同一块内存上操作,并且在格式上保持严格一致,通过多IP协同+AIPP实现高效人像分割计算。

在端侧部署过程中提供了模型可视化+Profiling工具,通过模型可视化了解HiAI Foundation结构,通过Profiling知道IP的分布,包括算子在NPU和GPU的推理时间,综合起来通过可视化工具和Profiling工具设计出系统友好的结构,设计性能最佳的模型。

通过Profiling工具了解到模型算子的性能不够友好,然后把它反馈到HiAI Foundation,我们在支持好这些算子之后,通过端云协同的方式快速推送到用户手中,使用户能够尽快上线业务。本次华为在端云协同助力性能优化快速升级方面做了全面的升级,开发者无SDK就可以集成,相比原来繁琐的集成要求,可以做到无感集成。

语音类的加速方案语音识别

端侧部署语音识别实时出字、响应快,在端侧执行可以保证用户的隐私,此外华为能做到在NPU上执行,稳定性高,并且可以降低云侧的资源部署成本。在语音识别这一块,HiAI Foundation支持的是端到端的Transformer模型,全部在云端推理。基于华为实验室测试结果,模型量化模型大小缩小74%,精度损失1%以内。

模型如图所示,支持Transformer模型,开发者可以根据自身的业务,根据性能和泛化性来进行定制,也可以实现高效的算子融合。

将原来需要频繁和内存交互的指令融合成一个大的算子,通过对这些关键结构进行算子融合,总共带来了60%的功耗收益,将左边很多小算子组成的结构融合成一个大算子,避免这些小算子频繁和内存进行交互,从而提升了运算效率。

在端侧部署的过程中,存储空间也是开发者们关注的问题,希望用更小的存储空间来实现更多更强的能力,所以华为提供量化工具链,通过量化工具链可以量化出更小巧、更灵活的模型。以人像分割和语音识别为例,基于华为实验室测试结果,它们的存储大小能够相比32位浮点减少70%以上,精度WER指标相比32浮点小于1%,相应的功率也有一定的提升。

在端侧AI部署中会涉及到硬件、软件和AI算法,所以华为通过开源的方式来加速业务,通过更多方式灵活部署。目前开放了推理源码的开源,通过开源可以做到和App、第三方深度学习框架对接,同时可以基于自身的需求做灵活的定制裁剪,做到开发灵活,通过这些开源平台能和开发者沟通更便捷。通过这些开源,开发者可以快速下载、编译,即可在华为手机上用NPU做推理,更高效集成业务。

未来,华为会探索Transformer模型更加泛化、更高能效的场景化解决方案,同时在端云协同上也会探索更多更高性能场景的能力支持,也会通过ModelZoo提供更多场景NPU友好的模型结构,用户可以设计更加NPU友好的模型结构。

了解更多详情>>

访问HMS Core 联盟官网

获取HMS Core 开发指导文档

关注我们,第一时间了解 HMS Core 最新技术资讯~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1004308.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

喜讯连连!疆程重磅发布全球独家3.6 TFT- LCD AR-HUD及CMS产品及解决方案,并斩获年度TOP10供应商

9月7日至8日,2023世界显示产业大会在成都盛大启幕,同期由BOE(京东方)承办的“Define the Future 智能座舱生态论坛”,合肥疆程技术有限公司创始人兼总经理康栋受邀出席并发布两款重磅座舱解决方案。 本次论坛以“智能座…

VRTK4⭐二.VRTK4的项目基础配置

文章目录 🟥 硬件基本配置🟧 设置XR Plug-in Management🟨 添加项目Tilia🟩 配置项目Hierarchy 🟥 硬件基本配置 解决使用OpenXR,HTC头显正常追踪,但手柄无法使用的问题. 问题如下: 当我们按照官方的标准流程配置完Op…

消息队列(一):需求分析

为什么要做这样一个项目? 首先,我们在之前学习的时候,就认识了一下 生产者消费者模式,这样一个模式有两大好处: 解耦合 本来有个分布式系统,A服务器 调⽤ B服务器(A给B发请求,B给A…

中国智能卡车“遥遥领先”:卡车NOA落地5000万公里0事故,全球首个

智能车参考 | 公众号 AI4Auto 成熟的“擎天柱”,已经可以自己出去赚钱了。 此时此刻,遍及华东、华北、华南、西北…几乎全国所有主要货运干线上,都有智能重卡承运商单。 高速路段由卡车智能驾驶系统完全承担驾驶任务,自主控制油门…

中国社科院大学与美国杜兰大学能源管理硕士项目——喜欢可抵万难,加油!

人生起起伏伏,在我们与生活较量的过程中,每克服一道难题,便赢得了自我成就的依仗。慢慢的,我们放下了名利、物质和虚荣,但决不放弃对世界的求知欲以及对知识的渴望,虽然在职读研很苦很累,但喜欢…

【CesiumJS入门】(10)绘制多边形(动态实时画面)

前言 如果你是在寻求解决方案,可以直接用cesium-draw这个插件。 鼠标左键添加点、右键完成绘制,单击右侧弹窗关闭按钮清空绘制。参考沙盒示例:Drawing on Terrain 直接上代码了 /** Date: 2023-07-12 18:47:18* LastEditors: ReBeX 420659880qq.com* L…

安防监控/视频汇聚/云存储/AI智能视频分析平台EasyCVR下级海康设备无法级联是什么原因?

安防视频监控平台/视频集中存储/云存储/磁盘阵列EasyCVR可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。 有用户反馈&…

Excel、Jira、Bugfree 应该选哪个做bug管理?深度对比

如何选择最适合您团队的Bug管理系统?本指南提供了全面的选型建议,并深度对比了7类主流工具如PingCode、Jira、 Mantis等,涵盖功能、成本、易用性等多个关键因素。适用于软件开发团队、项目经理和决策者。 一、适合的BUG管理工具在产品开发中的…

华为云云耀云服务器L实例评测|在云耀云服务器L实例上部署经典小游戏battle-city坦克大战

文章目录 1 引言2 购买云耀云服务器2.1 华为账号2.2 华为云耀云服务器L实例 3 登录云服务器3.1 重置密码3.2 远程登录 4 安装Node.js4.1 下载4.2 解压4.3 环境配置4.4 确认Node版本4.5 其他 5 部署经典小游戏battle-city坦克大战5.1 下载5.2 安装5.3 启动游戏服务 6 在线访问ba…

如何实现CSDN评论区粉丝幸运抽选功能:一场代码与运气的碰撞

文章目录 前言抽选规则实现思路代码实现1.获取评论数据2.过滤符合抽选规则的评论者3.获取粉丝数据4.过滤符合抽选规则的粉丝5.增加公众号留言权重6.抽选粉丝 完整的代码效果展示结语 前言 为了回馈粉丝们一直以来的的关注和支持,我近期开启了赠书活动,活…

使用 Nginx 实现企业微信域名配置中的校验文件跳转

背景 在企业微信中配置业务域名时,通常需要在该域名的根路径下放置一个校验文件,以验证域名的所有权。然而,如果该域名是第三方的,你可能无法直接在根路径下放置文件。在这种情况下,你可以使用 Nginx 来实现校验文件的…

软件测试/测试开发丨使用ChatGPT自动进行需求分析

简介 在实际工作过程中,常常需要拿到产品的PRD文档或者原型图进行需求分析,为产品的功能设计和优化提供建议。 而使用ChatGPT可以很好地帮助分析和整理用户需求。 实践演练 接下来,需要使用ChatGPT 辅助我们完成需求分析的任务 注意&…

pgsql操作json类型

目录 一、表结构 二、实体类 三、json处理器 四、配置文件 五、josn数据 1、插入 2、查找 一、表结构 CREATE TABLE "public"."pg_user" ("id" int8 NOT NULL GENERATED ALWAYS AS IDENTITY ( INCREMENT 1 MINVALUE 1 MAXVALUE 92233720…

肖sir__mysql之navicat安装__003

navicat 工具 一、navicat 介绍 :Navicat是一套可创建多个连接的数据库管理工具,用以方便管理 MySQL,创建、管理和维护数据库 二、navicat安装 1、安装包 2、查看navicat中安装包,并创建快捷方式 3、创建快捷键图标&#xff1a…

Vue3 学习-组件通讯(二)

文章目录 前言一、props通信二、自定义事件(emit)三、全局事件总线(EventBus)四、v-model五、userAttrs六、ref和$parent七、Provide与Inject八、pinia九、slot插槽总结 前言 本文主要记录Vue3的九种组件通信方式 一、props通信 子组件需要用defineProp…

MCU主频 服务器台式机主频 处理器主频那些事

几十M级别的 几百M级别的 几个G级别 早期的典型的51单片机外部接12MHz晶振,内部电路对12MHz的原始时钟进行12分频变成1MHz的时钟给CPU,所以早期典型的51内核的主频是1MHz。后来工艺改良了单片机也设计也改良了,CPU可以耐受的主频提升了&am…

【Unity3D】UI Toolkit数据动态绑定

1 前言 本文将实现 cvs 表格数据与 UI Toolkit 元素的动态绑定。 如果读者对 UI Toolkit 不是太了解,可以参考以下内容。 UI Toolkit简介UI Toolkit容器UI Toolkit元素UI Toolkit样式选择器UI Toolkit自定义元素 本文完整资源见→UI Toolkit数据动态绑定。 2 数据…

如何制作医疗科普宣传片

科普宣传片通过视觉呈现、简化浓缩、故事叙述、情感引导等手段,将科学知识生动地传达给观众,覆盖广泛的传播渠道使其影响力更大。制作医疗科普宣传片需要综合考虑目标受众、内容传递、专业性和吸引力等因素。下面是一些制作医疗科普宣传片的步骤和建议&a…

在滴滴和字节划水四年半,太真实了...

先简单交代一下吧,沅哥是某不知名211的本硕,18年毕业加入滴滴,之后跳槽到了头条,一直从事测试开发相关的工作。之前没有实习经历,算是四年半的工作经验吧。 这四年半之间他完成了一次晋升,换了一家公司&am…

【数据结构-二叉树】二叉树

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kuan 的首页,持续学…