苹果端侧AI布局深度分析

news2024/11/17 21:19:23

苹果 - 国际巨头的端侧 AI布局 深度分析

   

1.1.1 苹果AI:模型侧:MM1

  • 3月,苹果发布多模态大模型MM1,拥有高达300亿参数。MM1融合密集模型与MoE变体,涵盖300亿、70亿、30亿参数版。MM1预训练指标领先,在多个多模态基准上微调后仍具竞争力。
  • MM1模型凭借多模态预训练,在上下文预测和多图像推理中表现卓越。经指令调优,其少样本学习能力显著提升。在多基准测试中,苹果的MoE模型超越密集模型,预示MoE模型扩展潜力巨大。

9027239feccd38e4860fed65e12eddfa.jpeg

由于其大规模多模态预训练,MM1可进行上下文预测。这使得MM1能够:

a)计数对象并遵循自定义格式;

b)引用图像的部分并执行OCR;

c)展示关于日常物品的常识和词汇知识;

d)执行基本的数学函数。

MM1模型,遵循指令跨图推理强,VILA示例助其精准答。苹果AI,OpenELM技术,引领智能新潮流。

  • 4月26日,苹果发布开源AI大模型OpenELM,涵盖2.7亿至30亿参数,专为轻量级设备设计,降低运行成本。同时,开源模型权重、推理代码等,助力文本生成。
  • OpenELM采用“分层缩放”策略优化Transformer模型,10亿参数规模下,相较OLMo,准确率提升2.36%,预训练token减少50%。
  • OpenELM BFloat16基准测试,在配备英特尔i9-13900KF CPU、RTX 4090 GPU、24GB DDR5内存的工作站及M2 Max MacBook Pro(64GB内存)上运行。

7a74eb0b8d81312626be81c3bdf18bb7.jpeg20e1e491026dd0db44a4498a35ef72d7.jpeg1.1.3 苹果AI:模型侧:Ferret-UI

  • 4月8日,苹果展示了多模态模型Ferret-UI。Ferret-UI系统可以理解手机屏幕上的应用程序内容,专为增强对移 动端UI屏幕 的理解而定 制,其配备 了引用(referring ) 、 定 位 ( grounding ) 和 推 理 (reasoning)功能。
  • Ferret-UI具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面(UI)屏幕并与其有效交互的能力
  • Ferret-UI与OpenAI近期发布的GPT-4o、谷歌近期发布的Gemini 1.5 Pro在功能上异曲同工。
  • Ferret-UI可执行从基本到复杂任务等11种任务。它能在移动UI屏幕上使用灵活的输入格式(点、框、涂鸦)执行指代任务(例如控件分类、图标识别、OCR)和定位任务(例如查找控件、查找图标、查找文本、控件列表)。
  • 这些基本任务为模型提供了丰富的视觉和空间知识,使其能在粗略和精细级别(例如各种图标或文本元素之间)区分UI类型。这些基础知识对于执行更高级的任务至关重要。具体来说,Ferret-UI不仅能在详细描述和感知对话中讨论视觉元素,还可在交互对话中提出面向目标的动作,并通过功能推理推断出屏幕的整体功能。

775898a329087ede38a64a7892a05e69.jpeg1.1.3 苹果AI:模型侧:Ferret-UI

  • Ferret-UI建立在Ferret的基础上。Ferret是一个MLLM,在不同形状和细节水平的自然图像中实现空间参考和基础。无论是点、框还是任何自由形式的形状,它都可以解释相应区域或对象并与之交互Ferret包含一个预训练的视觉编码器(例如CLIP-ViT-L/14)和一个Decoder Only的语言模型(例如Vicuna)。
  • 此外,Ferret还采用了一种独特的混合表示技术,该技术将指定区域转换为适合LLM处理的格式。本质上,空间感知视觉采样器旨在熟练地管理不同稀疏度级别的区域形状的连续特征。
  • Ferret-UI-base虽基于Ferret架构,却拓展了图像功能。其预训练编码器和投影层可生成全屏图像特征,针对子图像更精细。文本的视觉采样生成区域连续要素。LLM综合全图、子图、区域特征与文本嵌入,生成智能响应。


4636e52d78dd1885394753b9955190af.jpeg

  • Ferret-UI高效处理任务,UI检测器精确识别元素类型、文本及位置。构建训练样本,专注图标、文本及控件,生成指代与定位样本,精准定位任务执行。

6e5c3253cf8068785993e0563f19617a.jpeg

  • Ferret-UI高效处理复杂任务:通过归一化坐标,将检测、提示与GPT-4交互,生成响应配对训练。对话任务直接转换多回合对话,提升交互体验。
  • Ferret-UI革新性地采用“任意分辨率”设计,完美适配各类屏幕。通过庞大的基本和高级UI任务训练样本,其在引用、定位和推理上展现卓越能力。这一突破预示着,在众多UI应用领域,Ferret-UI将带来颠覆性进步,极大拓展其潜在价值。

95d824aacce99d6188a7d960d7f5e5c6.jpeg
1.2.1 苹果AI:硬件侧:手机AP后劲不容小觑

  • 苹果于2017年率先在SoC中引入NPU计算单元,应用于iPhone 8系列及iPhone X。尽管苹果A17芯片的AI算力为35TOPS,略逊于高通骁龙8Gen2(后者支持10+亿参数的AI模型),但AI性能取决于CPU、GPU、NPU的综合实力,软件适配优化同样关键。
  • 苹果M系列芯片采用统一内存架构设计,允许CPU、GPU及其他协处理器共享和访问相同的内存池,使得并行计算更快速高效。M4芯片支持120GB/s的系统内存带宽,M3芯片最高支持128GB内存,M2 Ultra配置高达192GB的统一内存和800GB/s的系统内存带宽,相当于支持了近似容量的显存,甚至可能容纳下LLaMA-65B模型(650 亿参数,显存需求是130GB左右)。在苹果统一内存架构下,CPU、GPU和内存直接通过硅中介层连在一起,数据传输带宽极高。M3/M4系列芯片采用ARM架构设计,台积电3nm工艺制造,在能效比方面优势显著。
  • 苹果统一内存架构+ARM架构的能效比优势
  • 在端侧AI时代极具想象空间。
  • 在《LLM in a flash》论文中,苹果揭示了在内存受限设备上高效运行大型语言模型(LLM)的关键技术,实现内存优化下的高效推理。
  • 苹果将模型参数存储在Flash中,按需将其带入DRAM,从而高效地运行超出可用DRAM容量的LLMs。为此,苹果构建了一个推理成本模型,其通过引入两种主要技术,即“窗口化”(通过重用之前激活的神经元战略性地减少数据传输)、以及“行列打包”(针对闪存的顺序数据访问优势,增加了从闪存读取的数据块大小),减少了从闪存传输的数据量、以及以更大更连续的块读取数据。这些方法使得能运行的模型大小达到可用DRAM容量的两倍,与CPU和GPU中的简单加载方法相比,推理速度分别提高了4-5倍和20-25倍。这些方法促成了数据负载的显著减少和内存使用效率的提高,对于端侧部署先进的AI模型尤为关键。

闪存容量提升,带宽受限。随机读取吞吐量随块大小及线程数增。苹果优化单token推理,延迟缩减1.3倍。AI时代,苹果重塑Siri,把握流量入口。

  • 纽约时报独家预告:苹果2024年WWDC将大放异彩,全新升级的Siri语音助手将亮相!新Siri将具备更丰富的对话性和多功能性,底层搭载全新生成式AI系统,实现聊天交互,助力处理日常任务,如设置定时器、创建日程和添加购物清单等,成为您的个人智能助手。敬请期待!
  • 根据苹果之前在语音领域发表的论文来看新版Siri可能的改进方向,主要有:

1)无需唤醒词,就能使用Siri助手,或者更准确地检测唤醒词;

3)生成答案时不再冗长,用户更容易理解等。

  • 结合5月OpenAI和谷歌的发布会来看,在AI语音方面,GPT-4o的拟人化风格,包括能识别人类感情,并根据用户感情做出相应的情绪反应,在语音交互中可随时打断,更贴近真实对话场景等,打破传统的类机器人体验;谷歌DeepMind展示了基于Gemeini开发的智能体Astra的语音交互能力,包括强化的智能体发音、更广泛的语调、更好地理解上下文,并在对话中快速做出响应等。鉴于苹果与OpenAI和谷歌未来可能的合作,预计这些体验未来或将加入到Siri的功能当中。

GPT-4o实现拟人化语音交流,Google Astra手机实时推理1.3.2版亮相;苹果AI赋能原生APP,提升服务价值!

苹果APP独领风骚,AI应用工具助手与办公、娱乐类应用井喷。AI Vision Pro,苹果AI终端的未来杀手锏,将重塑生态格局。

  • XR设备,个人空间的新延伸,承载海量信息,深度内容数据。AI技术如计算机视觉、自然语言交互等,打造沉浸式体验。GPT等AI助力XR产业,提升企业生产力。AI与XR融合,拓展数字体验至制造业、教育等多元领域,引领未来生态革新。
  • 苹果Vision Pro引领空间计算新纪元,创新3D交互体验。AI赋能技术革新,打造更强大的元宇宙架构,提升用户体验。

苹果Vision Pro交互界面b781d1edf935a4517a148f5bdef6e969.jpeg
苹果Vision Pro重新定义XR设计12b59974d1890f8b01fd5ceddf641b41.jpeg

  • 苹果的Vision Pro开启了空间计算时代,带来了全新的3D交互方式。VisionOS搭载全新的3D界面,让数字内容看起来就像在用户的真实世界存在。Vision Pro带来全新的输入系统,用户通过眼睛、双手和语音来控制。VisionOS作为革命性的操作系统,利用用户周围的空间提供强大的空间体验,解锁办公和居家的全新机会。硬件方面,Vision Pro突破性的显示和先进的音频体验、以及高效的眼睛追踪系统,由M2和R1芯片来驱动。
  • 生成式AI赋能空间计算将大幅推动技术革新和提升用户体验,基于苹果强大的芯片能力,Vision Pro将有力承接AI模型和生成式AI在端侧的部署,开创新的元宇宙时空
  • IDC预测,2024年VR/AR头显市场将达1250万台,苹果Vision Pro和Meta Quest 3引领增长。2027年全球销量预计突破3000万台。

XR与智能眼镜实时推理力升级,苹果凭借1.5万亿全球VR/AR市场、充裕现金流及对AI技术的大规模投入,深度布局AI领域。

  • 苹果持续深耕AI与机器学习,研发投入不断攀升。2023财年研发支出近300亿美元,上半年增长2.9%,达156亿美元。资本支出常年超百亿,AI投入预期将扩大规模。2023财年自由现金流高达995.8亿美元,上半年增长4.2%,为新技术布局提供坚实保障。

f441b09d1ef2318e9f4711fb60afaa72.jpeg
苹果自由现金流情况bc60fd79f61b33af8f4e2e0fa37b7abd.jpeg


-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2174100.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ubuntu 安装k8s

#关闭 Swap 内存,配置完成建议重启一下 nano /etc/fstab #注释下面相似的一行 #/swapfile none swap sw 0 0 #重启 reboot#部属k8s apt update && apt install -y apt-transport-https 下载 gpg 密钥 curl https://mi…

基于SpringBoot+Vue的高校实习管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

一次眼睛受损然后恢复的过程

由于多年没有社交比较宅,多年长期盯着电脑和手机,没有保护好眼睛 之前早上醒来有一段时间我眼睛老是分泌各种乱起八遭的东西,导致我眼睛看不清, 2023年3月有天的早上,我又不小心眼睛揉出血了,出门上班路上的时候才知道有这个问题,第二天早上就挂了去了眼科,医生给我开了如下的药…

单细胞转录组|scATAC-seq 数据整合

引言 本文在此展示了如何将多个源自人类外周血单核细胞的单细胞染色质数据集进行整合。其中一个数据集是通过10x Genomics的多组学技术获得的,它涵盖了每个细胞的DNA可及性和基因表达数据。另一个数据集则是通过10x Genomics的单细胞ATAC测序(scATAC-seq)技术得到的…

Mybatis-Plus自动填充时间的配置类

引言:在现代软件开发中,数据库操作是不可或缺的一部分。为了确保数据的准确性和完整性,我们常常需要在数据库记录中添加时间戳,例如创建时间和更新时间。MyBatis-Plus作为一个流行的持久层框架,提供了灵活的机制来实现…

官方权威解读|CNAS-CL01计量溯源性部分解读,供CNAS软件测试实验室参考

CNAS-CL01《检测和校准实验室能力认可准则》是软件测试实验室申请CNAS资质,建设符合CNAS要求的实验室质量管理体系时必须要参考的一部强制性准则。CNAS-CL01一共分为五大核心部分:通用要求、结构要求、资源要求、过程要求和管理体系要求。前面的文章中我…

【零散技术】微信支付保姆教程(一)

序言:时间是我们最宝贵的财富,珍惜手上的每个时分 微信支付十余年,早已成为国内必不可少的支付工具。但是开发对接中 繁杂的各类参数与文档,以及各种证书的申请,着实也成了不少开发者的噩梦,那么今天我们来看看,如何申…

3-3 AUTOSAR RTE 对SR Port的作用

返回总目录->返回总目录<- 一、前言 RTE作为SWC和BSW之间的通信机构,支持Sender-Receiver方式实现ECU内及ECU间的通信。 对于Sender-Receiver Port支持三种模式: 显式访问:若运行实体采用显示模式的S/R通信方式,数据读写是即时的;隐式访问:当多个运行实体需要读取…

小阿轩yx-案例:代码管理系统简介与部署

小阿轩yx-案例&#xff1a;代码管理系统简介与部署 前言 开发一个项目时&#xff0c;如果只有几十行代码或几百行代码时维护还算简单&#xff0c;但是代码数量达到一定程度或两三个人共同开发一个项目时&#xff0c;就很容易会出现代码混乱、冲突、排错难等问题。代码编写完成…

vue3中< keep-alive >页面实现缓存及遇到的问题

vue3中< keep-alive >页面实现缓存及遇到的问题 实现原理&#xff1a;keep-alive 是 Vue 的内置组件&#xff0c;当它包裹动态组件时&#xff0c;会缓存不活动的组件实例&#xff0c;而不是销毁它们。实现不同路由是否缓存只需要设置对应路由参数keepAlive为true&#xf…

Excel里的 $ 是什么意思,绝对引用用法详解来了

大家好&#xff0c;这里是效率办公指南&#xff01; &#x1f511; 在Excel中&#xff0c;$符号是一个功能强大的工具&#xff0c;它用于实现单元格引用的绝对引用和混合引用。了解它的用法对于编写公式和处理数据至关重要。今天&#xff0c;我们将详细介绍$符号的用法和一些实…

【C++】设计用户级缓冲区

目录 缓冲区功能分析 缓冲区空间分配策略分析 数据设计和函数介绍 完整代码 接口介绍 个人主页&#xff1a;东洛的克莱斯韦克-CSDN博客 缓冲区功能分析 1.可以向缓冲区写入数据 2.可用从缓冲区读取数据 3.可用窥探数据——把数据拷贝给上层&#xff0c;但缓冲区数据不减少 …

巧用枚举消除条件判断

shigen坚持更新文章的博客写手&#xff0c;记录成长&#xff0c;分享认知&#xff0c;留住感动。个人IP&#xff1a;shigen 在上一篇的文章结合HashMap与Java 8的Function和Optional消除ifelse判断中有讲到如何结合HashMap与Java 8的Function和Optional消除ifelse判断&#xff…

校园二手交易平台的小程序+ssm(lw+演示+源码+运行)

摘 要 随着社会的发展&#xff0c;社会的方方面面都在利用信息化时代的优势。互联网的优势和普及使得各种系统的开发成为必需。 本文以实际运用为开发背景&#xff0c;运用软件工程原理和开发方法&#xff0c;它主要是采用java语言技术和mysql数据库来完成对系统的设计。整个…

Transformer: Attention is all you need

Transformer于2017年提出&#xff0c;最开始应用于NLP领域&#xff0c;随着Transformer的快速发展&#xff0c;在视觉领域中也越来越多的论文或应用用到了Transformer&#xff0c;这里记录一下自己学习的一些知识点。 PDF&#xff1a; 《Attention Is All You Need》 Code: att…

【HTML5】html5开篇基础(3)

1.❤️❤️前言~&#x1f973;&#x1f389;&#x1f389;&#x1f389; Hello, Hello~ 亲爱的朋友们&#x1f44b;&#x1f44b;&#xff0c;这里是E绵绵呀✍️✍️。 如果你喜欢这篇文章&#xff0c;请别吝啬你的点赞❤️❤️和收藏&#x1f4d6;&#x1f4d6;。如果你对我的…

带您了解《人工智能机器视觉应用工程师》

人工智能机器视觉应用是指利用人工智能技术和机器视觉技术相结合&#xff0c;使机器能够像人类一样通过视觉感知和理解环境&#xff0c;从而实现各种应用。随着人工智能技术的不断发展&#xff0c;机器视觉应用在各个领域得到了广泛应用。 在工业制造领域&#xff0c;人工智能机…

Unity3D入门(三) : Android和Unity3D交互 - Android调用Unity

1. 前言 上篇文章&#xff0c;我们讲了如何在Unity3D中过渡地切换相机视角。这篇文章&#xff0c;我们来讲一下Unity3D怎么与Android交互。 1.1 unity和Android的三种通信方式 Unity官方提供的接口 : 有一个弊端&#xff0c;它有一个传输内容量的一个限制&#xff0c;传输内…

Java---异常及处理

一.异常 1.概念 程序的非正常执行。高级语言都有异常处理机制&#xff08;C&#xff0c;Java&#xff09; 2.一般处理异常的方法 Scanner sc new Scanner(System.in);System.out.println("请输入一个数字:");String s sc.nextLine();if (s.matches("[0-9]&qu…

数据结构 - 排序算法

一.冒泡排序 /*** description: 冒泡排序* param - a : 要进行排序的数组的指针* param - length : 数组中元素的个数* return : 无 */ void Bubble_sort(int *a,int length) {int temp,i,j;for(i 0;i < length -1;i){for(j…