高通AI-让AI触手可及

news2024/11/17 7:51:13

    生成式AI模型,例如大语言模型和大视觉模型,需要大量的计算资源进行推理,这对于传统的CPU和GPU等通用处理器来说是一个挑战。

1 NPU和异构计算的优势

  • NPU (神经网络处理器): 专门为AI推理设计的处理器,具有高性能、低功耗的特点,能够高效地执行神经网络运算。
  • 异构计算:利用多种处理器协同工作,例如CPU、GPU、NPU等,可以发挥各自的优势,提升AI性能和能效。

高通Hexagon NPU:

  • 系统级解决方案:高通对NPU进行定制设计,并与SoC系统架构和软件基础设施进行优化,以打造最佳的AI解决方案。
  • 高性能低功耗:高通Hexagon NPU具有高性能、低功耗的特点,能够以低功耗实现持续稳定的高性能AI推理。
  • 快速创新:高通能够快速进行NPU设计演进和扩展,以解决瓶颈问题并优化性能。

2 高通AI引擎

高通AI引擎是高通异构计算架构的核心,包含多个硬件和软件组件,能够加速骁龙和高通平台上的终端侧AI。

2.1 硬件组件

  • Hexagon NPU:高通AI引擎中最关键的组件,提供高性能的AI计算能力。
  • Adreno GPU:用于图形处理和AI并行计算。
  • Kryo或Oryon CPU:用于顺序控制和低计算量AI工作负载。
  • 传感器中枢:用于始终在线的AI处理,例如情境感知和传感器处理。
  • 内存子系统:用于高效的数据传输和存储。

2.2 软件组件

  • 高通AI软件栈:提供AI开发工具和框架,帮助开发者将AI模型部署到高通平台上,并进行优化。支持主流AI框架和runtime,例如TensorFlow、PyTorch、ONNX等,并集成了高通神经网络处理SDK和高通AI引擎Direct SDK,方便开发者访问AI硬件资源。
  • 高通神经网络处理SDK:提供用于推理的API,帮助开发者访问AI硬件资源。
  • 高通AI模型增效工具包(AIMET):提供模型优化工具,例如量化、压缩等,以提升模型的效率和性能。
  • 高通AI Studio是一个集成了模型设计、优化、部署和数据分析的工具平台,帮助开发者更高效地开发AI应用。

3 混合AI架构

将AI计算任务在云端和终端设备之间进行分配,根据任务复杂度和用户需求进行动态调整。

3.1 分布式处理机制

  • 以终端为中心的混合AI:终端设备负责大部分AI计算任务,云端仅用于处理复杂任务或提供额外的数据。
  • 基于终端感知的混合AI:终端设备收集用户的输入和感知数据,并用于生成更个性化的提示,发送到云端进行推理。
  • 终端与云端协同处理的混合AI:终端设备与云端协同工作,例如使用终端设备进行预测性推理,并将结果发送到云端进行验证。

3.2 优势

  • 降低成本:将部分计算任务转移到终端设备,可以减少云端数据中心的计算成本。
  • 降低能耗:终端设备的能耗通常低于云端数据中心,因此可以降低整体能耗。
  • 提升性能和时延:终端设备可以提供更低的时延,并减少对网络带宽的需求。
  • 提升隐私和安全:将部分计算任务在终端设备上执行,可以减少用户数据传输,并提升隐私和安全。
  • 提升个性化:终端设备可以收集用户的个人信息和行为数据,并用于优化AI模型,提升用户体验。

4 终端侧AI的演进

4.1 早期探索阶段 (2007年以前)

  • 通用处理器为主: 终端设备主要依赖CPU进行计算,AI应用较少且性能有限。
  • 分立芯片: 一些特定功能如2D图形、音频、图像信号处理等需要使用独立的芯片,增加了功耗和体积。

4.2 AI引擎集成阶段 (2007-2015年)

  • 高通AI引擎诞生: 2007年,高通推出首款Hexagon DSP,为后来的NPU发展奠定了基础。
  • 集成AI引擎: 2015年,骁龙820处理器集成首个高通AI引擎,支持成像、音频和传感器运算,标志着AI能力的初步集成。

4.3 NPU快速发展阶段 (2015年至今)

  • NPU功能演进: 从最初的音频和语音AI用例,发展到支持拍照、视频、语音识别等更复杂的应用。
  • 模型和用例多样化: AI模型从简单的CNN发展到Transformer、LSTM等更复杂的模型,用例也从按需型发展到持续型和泛在型。
  • NPU架构升级: 高通不断优化NPU架构,提升性能和能效,例如:
  • Hexagon NPU: 从2015年至今,Hexagon NPU经历了多代演进,性能和能效不断提升,并支持INT4量化等特性。
  • Adreno GPU: GPU除了图形处理,也开始支持AI并行处理,例如骁龙855的GPU支持FP32、FP16和INT8运算。
  • 高通传感器中枢: 面向泛在型生成式AI应用的情境化信息处理,例如骁龙865的传感器中枢支持微切片推理和INT4硬件加速。

4.4 异构计算架构阶段

  • 多样化处理器协同: CPU、GPU、NPU等不同处理器协同工作,充分发挥各自优势,例如高通AI引擎中的Hexagon NPU、Adreno GPU和Kryo CPU等。
  • 系统级优化: 高通从系统架构、软件基础设施等层面进行优化,确保处理器协同工作的效率,例如骁龙平台的共享内存子系统。

4.5 生成式AI应用阶段

  • 大模型终端运行: 随着NPU性能提升,越来越多的生成式AI模型能够在终端上运行,例如骁龙865支持Stable Diffusion等大模型。
  • 混合AI架构: 云端和终端协同工作,根据模型和用例需求进行分布式处理,例如智能手机数字助手同时使用云端LLM和终端TTS模型。

4.6 未来趋势

  • 更大规模模型: 随着NPU性能进一步提升,未来终端设备将支持更大规模的生成式AI模型。
  • 多模态AI: 终端设备将能够处理更多类型的输入和输出,例如文本、语音、图像、视频等。
  • 个性化体验: 终端设备将根据用户行为和喜好进行个性化定制,例如数字助手根据用户习惯推荐内容。
  • 隐私和安全: 终端侧AI将更加注重用户隐私和安全,例如本地处理用户数据,避免数据泄露。

更多内容可下载:https://download.csdn.net/download/robinfang2019/89645278

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2046573.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Eval绕过限制参数限制

PHP Eval函数参数限制在16个字符 PHP代码 <?php$param $_REQUEST[param]; if (strlen($param) < 17 && stripos($param, eval) false && stripos($param, assert) false){eval($param);}?># 部署环境属于ubuntu系统 通过GET传参绕过 由于是…

贪吃蛇+SDL2库【1】(c语言)

小白的学习记录 一、前置知识 注&#xff1a;博主是小白&#xff0c;所以记录的可能是一些无意中看到&#xff0c;但是不清楚的东西&#xff0c;所以大家择需了解。 JSON JSON&#xff08;JavaScript Object Notation&#xff09; 是一种轻量级的数据交换格式&#xff0c;易于…

10690 分面包

### 伪代码 1. 读取输入的 n 和 m&#xff0c;以及 m 个面包的长度 L。 2. 定义一个函数 canDivide(length)&#xff0c;判断是否可以将所有面包分成每人 length 长度的面包。 3. 使用二分法查找每人分得的最长面包长度&#xff1a; - 初始化 low 为 0&#xff0c;high 为所…

前端工程化-04.Vue项目简介

一.Vue项目-创建 1.使用如图两种方式创建Vue项目 2.在此创建新项目 点击创建项目 创建成功&#xff01; 二.Vue项目-目录结构 三.Vue项目-运行 启动后直接在下方找到连接端口 成功启动项目 这个项目即为Vue中的自带项目Vue.app。修改其中的Home为Vue Home。ctals保存发…

数学建模预测类—【一元线性回归】

每日格言&#xff1a;行动是治愈恐惧的良药&#xff0c;而犹豫拖延将不断滋养恐惧. 目录 前言 一、什么是回归分析&#xff1f; 1.概念理解 2.分类和一般步骤 二、一元线性回归&#xff08;Matlab算法&#xff09; 1.利用regress函数 2、例题讲解 总结 前言 在具体讲述线性回归…

如何在 Windows 10 中配置住宅 IP

什么是住宅IP 住宅IP指的是普通家庭网络的 IP 地址。你可以这样想&#xff1a; IP地址&#xff1a;每一个接入互联网的设备都有一个唯一的“地址”&#xff0c;就像每栋房子都有一个唯一的门牌号一样&#xff0c;这个地址就是IP地址。 住宅IP&#xff1a;指的是那些来自家庭用…

vue2父组件向子孙组件响应式传参,provide/inject响应式

provide和inject一起使用&#xff0c;实现将父组件的数据、方法提供给子孙组件使用&#xff0c;不论组件层次有多深。provide和inject绑定并不是可响应的。但如果你传入了一个可监听的对象&#xff0c;那么其对象的property还是可响应的。 API — Vue.js (vuejs.org)https://v…

完美解决html2canvas + jsPDF导出pdf分页内容截断问题

代码地址&#xff1a;https://github.com/HFQ12333/export-pdf.git html2canvas jspdf方案是前端实现页面打印的一种常用方案&#xff0c;但是在实践过程中&#xff0c;遇到的最大问题就是分页截断的问题&#xff1a;当页面元素超过一页A4纸的时候&#xff0c;连续的页面就会…

基于c++的yolov5推理之后处理详解及代码(二)

目录 一、解析yolov5的输出结果 1、对1*25200*85的向量进行解析 2、预测框中心&#xff08;x&#xff0c;y&#xff09;&#xff0c;预测框的高和宽&#xff08;h&#xff0c;w&#xff09;详解 3、解析代码&#xff1a; 二、confidence过滤 1、confidence计算 三、Non-Maxi…

C++笔记-sstream的使用(字符串转其他类型,读取文件时用得多)

在 C 中&#xff0c;std::stringstream 类可以用来进行字符串流的输入输出&#xff0c;将字符串和其他类型的数据进行转换。 #include <iostream> #include <sstream>int main() {// 将整数转换为字符串int num 123;std::stringstream ss;ss << num;std::s…

单元训练10:定时器实现秒表功能-数组方式

蓝桥杯 小蜜蜂 单元训练10&#xff1a;定时器实现秒表功能-数组方式 /** Description:* Author: fdzhang* Email: zfdcqq.com* Date: 2024-08-15 21:58:53* LastEditTime: 2024-08-16 19:07:27* LastEditors: fdzhang*/#include "stc15f2k60s2.h"#define LED(x) …

火语言RPA--手机对象元素库使用方法

使用自动选取工具获得手机中元素的xpath路径。 工具标识 手机 分组下组件若有此标识&#xff0c;则包含选择元素工具&#xff0c;点击此标识会可以选择手机中的元素进行操作。 元素库介绍 ① 根据元素名称筛选元素库中保存的元素 ② 元素库&#xff0c;显示已经保存的元素名称…

算法的学习笔记—链表中倒数第 K 个结点(牛客JZ22)

&#x1f600;前言 在编程过程中&#xff0c;链表是一种常见的数据结构&#xff0c;它能够高效地进行插入和删除操作。然而&#xff0c;遍历链表并找到特定节点是一个典型的挑战&#xff0c;尤其是当我们需要找到链表中倒数第 K 个节点时。本文将详细介绍如何使用双指针技术来解…

48天笔试训练错题——day47

目录 选择题 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 编程题 1. 合唱团 2. 马戏团 选择题 1. 子网掩码是 255.255.255.0&#xff0c;前三个字节都是 1&#xff0c;则表示有 24 位网络号和子网号。又是 B 类 IP 地址&#xff0c;只有 16 位网络号&#xff0c;所有第三个…

聊聊JS中的WebSocket

你好&#xff0c;我是沐爸&#xff0c;欢迎点赞、收藏和关注。个人知乎 在JavaScript中&#xff0c;使用WebSocket非常简单直观。通过几行代码&#xff0c;你就可以轻松创建一个WebSocket连接&#xff0c;并监听来自服务器的消息。无论是开发实时聊天应用、在线游戏、实时数据分…

高效录制新选择:2024年Windows录屏软件

录屏能帮助我们捕捉屏幕上的精彩瞬间&#xff0c;作为老师可以用来录制课程&#xff0c;作为会议记录员可以用来录制远程会议。那么有什么软件是适合windows录屏的呢&#xff1f;这次我们一起来探讨一下吧。 1.福昕录屏大师 链接&#xff1a;www.foxitsoftware.cn/REC/ 这款软…

【数据结构】 顺序表的应用 - 通讯录的实现

0. 前言 上一期博客中&#xff0c;我们已经学习了顺序表是什么&#xff0c;以及顺序表相关接口的实现&#xff0c;了解了如何实现顺序表的插入和删除等功能&#xff0c;那么在这期博客&#xff0c;我们可以基于顺序表来实现一个通讯录&#xff0c;在通讯录当中能实现联系人的增…

【代码随想录训练营第42期 Day27打卡 贪心Part1 - LeetCode 455.分发饼干 376. 摆动序列 53. 最大子序和

目录 一、贪心 二、题目与题解 题目一&#xff1a;455.分发饼干 题目链接 题解&#xff1a;排序双指针贪心 题目二&#xff1a;376. 摆动序列 题目链接 题解&#xff1a;贪心 题目三&#xff1a;53. 最大子序和 题目链接 题解1&#xff1a;暴力&#xff08;失败&…

解决生产环境服务启动失败:一次远程Bug排查与修复历程

一、问题现象 同事没事一直给服务器断电&#xff08;直接拔插头那种&#xff01;&#xff01;&#xff01;&#xff01;&#xff09; 二、初步排查 首先&#xff0c;我登录到生产服务器&#xff0c;查看服务启动日志。在日志中&#xff0c;我发现了一些异常信息&#xff0c;…

全网独家梳理:数字病理图像的常用存储格式以及格式转换的方法|24-08-17

小罗碎碎念 这一期推文&#xff0c;跟你们分享一些比较底层&#xff0c;并且顶刊中不会涉及但是又至关重要的内容。 我们在做任何一个病理AI的项目前&#xff0c;有两样东西是一定会拿到手的——切片&对应的临床基线表。&#xff08;如果做多组学/多模态的项目&#xff0c;…