Llama 3.2来了,多模态且开源!AR眼镜黄仁勋首批体验,Quest 3S头显价格低到离谱

news2024/11/16 10:19:45

如果说 OpenAI 的 ChatGPT 拉开了「百模大战」的序幕,那 Meta 的 Ray-Ban Meta 智能眼镜无疑是触发「百镜大战」的导火索。自去年 9 月在 Meta Connect 2023 开发者大会上首次亮相,短短数月,Ray-Ban Meta 就突破百万销量,不仅让马克·扎克伯格直呼 Amazing,更促使了谷歌、三星、字节跳动等国内外大厂的纷纷入局!

时隔一年,Meta 再次在 Connect 开发者大会上推出了智能眼镜新产品 Orion,这是该公司推出的首款全息 AR 眼镜,扎克伯格称其为世界上最先进的眼镜,将会改变未来人与世界的交互方式。

此外,按照惯例,Meta 通常会在 Connect 大会推出 Quest 头显新产品,今年亦是如此。鉴于去年发布的 Meta Quest 3 被用户们普遍反映价格过高,今年 Meta 推出了一款性能与 Quest 3 相近但价格更亲民的新头显 Quest 3S,这款头显被认为是当前市场上最佳的混合现实设备,可以提供极佳的超现实体验。

当然,作为 Meta 旗下备受瞩目的核心技术之一,Llama 模型也在此次发布会上迎来了重大更新。多模态 Llama 3.2 能够同时理解图像和文本,手机也能跑大模型,为其开源生态再添助益。

Meta 的 AR 梦想成真,Orion 眼镜开启全新交互时代

今年 4 月,为庆祝 Reality Labs 成立 10 周年,Meta 曾发布一篇文章概述该部门的发展历史,并在文中预告了其下一个核心产品——首款 AR 眼镜。Meta 表示,Quest 3 能够让用户在物理世界中与数字内容沉浸式互动,Ray-Ban Meta 眼镜让用户享受到 Meta AI 的实用性和娱乐性,而新款 AR 眼镜则会结合这两者的优点,实现最佳的技术融合。

随着 Meta Connect 2024 的临近,市场上越来越多的声音推测,这款 AR 眼镜将会在本次大会中发布。不出所望,今天,Meta 发布了其首款 AR 眼镜 Orion。

在这里插入图片描述

扎克伯格表示,Orion 致力于改变人与世界的交互方式,是有史以来最先进的 AR 眼镜,历经 10 年研发而成。它拥有最先进的 AR 显示屏、定制的硅芯片、碳化硅镜片、复杂的光波导 (waveguides)、uLED 投影仪等,多种技术加持让强大的 AR 体验能够在一副眼镜上运行,而所消耗的电力和重量仅为 MR 头显的一小部分。

在这里插入图片描述

简单来说,这种 AR 眼镜采用一种全新的显示架构,利用微型投影仪将光线投射到波导中,再将不同深度和大小的全息图投射到用户面前的世界,并由一块装在眼镜腿里的电池供电。例如,用户如果想与远方的朋友相聚,他们将以全息图的形式出现在客厅,就像真的在身旁一样。

值得一提的是,Orion 在镜框边缘嵌入了 7 个微型摄像头和传感器,并结合语音、眼动和手势追踪,配备 EMG 腕带,用户可以轻松地进行滑动、点击和滚动操作。例如,如果晨跑时想拍照,只需轻轻一按指尖,Orion 就能定格精彩瞬间。此外,只需轻敲手指,还能召唤纸牌游戏、国际象棋或全息乒乓球等娱乐活动。

英伟达创始人兼 CEO 黄仁勋都迫不及待试用啦!

在这里插入图片描述

最佳混合现实设备 Quest 3S,性价超高

继去年 Meta 在 Connect 大会上发布全球首款混合现实头显 Meta Quest 3 之后,Meta 今年推出了 Quest 3 的精简版本——Quest 3S。

在这里插入图片描述

扎克伯格表示,「Quest 3S 不仅性价比高,而且是目前市面上能买到的最佳混合现实设备!」它具备与 Quest 3 相似的核心功能,即高分辨率全彩混合现实,用户可以在物理世界和虚拟世界中「无缝穿越」,能够进行娱乐、健身、游戏、社交体验等一系列活动。不同的是,Quest 3S 改进了镜片,并在技术栈、有效分辨率和延迟等方面做了优化,其混合现实手部追踪软件表现更为出色。

混合现实的神奇之处在于,它将写实的空间带入元宇宙,让用户有一种身临其境的感觉,并在不同的体验间自由切换。比如,用户可以选择影院模式,把屏幕放大成一个电影院,获得最佳的剧场观看体验。

在现场演示中,扎克伯格展示了从 2D 移动应用到远程桌面的 PC 的沉浸式体验,用户可以打开屏幕并将其放置在任何位置,形成一个巨大的虚拟显示器,并进行工作。他提到,Meta 一直在与微软合作升级远程桌面功能,不久之后,这种功能或许就可以连接到 Windows 11 电脑上。

值得一提的是,Meta Quest 3S 以难以置信的价格提供超现实的体验,起价仅为 299.99 美元,将在 10 月 15 日上市。今年秋天购买 Quest 3S 的用户,还将获赠《Batman: Arkham Shadow》游戏的 VR 体验。

首个支持视觉任务的 Llama 模型,多模态且开源

除了重磅的硬件发布外,小扎还带来了 Llama 的更新,推出 Llama 3.2 模型。作为第一个支持视觉任务的 Llama 模型,Llama 3.2 能够同时理解图像和文本。其中包含适用于边缘和移动设备的中小型视觉模型 (11B 和 90B) 以及轻量级纯文本模型 (1B 和 3B),这两个类别均包括预训练版和指令微调版。值得一提的是,这些不同规格的模型均可通过 Meta AI 进行试用。

在这里插入图片描述

模型性能评估

研究人员在超过 150 个跨语言的基准数据集评估模型性能。结果显示,Llama 3.2 1B 和 3B 模型支持 128K tokens 的上下文长度,在遵循指令、总结、提示改写和工具使用等任务上,3B 模型优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型则能够与 Gemma 模型一争高下。

在这里插入图片描述

此外,研究人员评估了模型在图像理解和视觉推理基准的性能。结果显示,Llama 3.2 11B 和 90B 视觉模型可以无缝替代相应的文本模型,同时在图像理解任务上超越了诸如 Claude 3 Haiku 之类的闭源模型。

在这里插入图片描述

轻量级模型训练
对于 Llama 3.2 1B 和 3B 模型,研究人员采用剪枝和蒸馏两种方法,从 8B/70B 模型中提炼出高效的 1B/3B 模型。

具体而言,研究人员将 Llama 3.1 的 8B 和 70B 模型的 Logit Date 纳入预训练阶段,使用这些较大模型的输出 (logit date) 作为 token 级别的目标,进行结构化剪枝。剪枝完成后,研究人员利用知识蒸馏来恢复模型的性能。

Llama 3.2 1B 和 3B 模型剪枝和蒸馏示意图

模型演示 demo

视觉模型训练
Llama 3.2 的训练流程分为多个阶段。首先,从预训练的 Llama 3.1 文本模型开始。接着,研究人员添加图像适配器和编码器,并在大规模的噪声(图像、文本)配对数据上进行预训练。然后,在中等规模的高质量域内和知识增强的(图像、文本)配对数据上进行训练。

在后期训练中,研究人员采用与文本模型相似的方法,通过多轮对齐来进行监督微调、拒绝采样和直接偏好优化。研究人员使用 Llama 3.1 模型生成合成数据,对域内图像的问题和答案进行过滤和增强,并使用奖励模型对所有候选答案进行排序,从而确保高质量的微调数据。

此外,研究人员还引入了安全缓解数据,以打造一个兼具高度安全性和实用性的模型。最终,能够同时理解图像和文本的 Llama 3.2 模型诞生,标志着 Llama 模型在通向更丰富代理能力的道路上又迈出了重要的一步。

视觉模型演示

本地部署模型及时且安全
研究人员指出本地运行 Llama 3.2 模型有两大优势。首先,在响应速度上,由于处理全部在本地完成,提示和响应的速度可以达到接近即时的效果。

其次,在隐私安全上,本地运行模型无需将消息和日历等数据发送到云端,保障了用户隐私,使应用程序更加私密。通过本地处理,应用程序可以明确控制哪些查询留在设备上,哪些查询需要交由云端更大的模型来处理。

手机写作助手 demo 演示

坚守开源初心,模型部署更加简化和高效

Meta 始终坚守开源初心,为了大幅简化开发者在不同环境(包括单节点、内部部署、云端和设备)中使用 Llama 模型的流程,实现检索增强生成 (RAG) 和工具支持型应用的一键部署,并集成安全功能,Meta 宣布将分享首批官方 Llama Stack 发行版。

在这里插入图片描述

据官方介绍,Llama 3.2 模型将在 llama.com 和 Hugging Face 上提供下载,并将在包括 AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflake 等在内的合作伙伴平台上提供即时开发支持。

作为一贯的开源倡导者,扎克伯格曾在与黄仁勋的对谈中介绍道,「Meta 从开源生态中获益,已节省数十亿美元」。而 Llama 无疑是其打造开源生态的重要触手,Llama 3.2 进一步向视觉任务拓展,实现多模态,也势必将为其开源生态再添助益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2167636.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HT6872 4.7W防削顶单声道D类音频功率放大器

■ 特点 防削顶失真功能(Anti-Clipping Function,ACF) 优异的全带宽EMI抑制性能 免滤波器数字调制,直接驱动扬声器 输出功率 1.40W(VDD3.6V,RL4Ω,THDN10%) 2.80W(VDD5.0V,RL4Ω,THDN10%) 4.70W(VDD6.5V,RL4Ω,THDN10%) 高信噪比SNR:95dB(VDD6.5V,Av24dB. THDN1%) 低…

监控IDS和IPS增强网络安全性

入侵检测系统(IDS)和入侵防御系统(IPS)是当今使用的最复杂的网络安全设备之一,它们检查网络数据包并阻止可疑数据包,并提醒管理员有关攻击企图的信息。 在当今威胁不断变化的网络环境中,防火墙…

学习threejs,添加环境光和点光源

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言二、🍀绘制任意字体模型…

人工智能之机器学习常见算法

摘要 之前一直对机器学习很感兴趣,一直没时间去研究,今天刚好是周末,有时间去各大技术论坛看看,刚好看到一篇关于机器学习不错的文章,在这里就分享给大家了. 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网…

【Linux实践】实验六:LINUX系统管理

【Linux实践】实验六:LINUX系统管理 实验目的实验内容实验步骤及结果1. 包管理工具2. VMware Tools3. 修改主机名4. 网络配置① 临时修改② 永久修改 5. 查找文件6. 前后台执行7. 查看进程8. 结束进程 实验目的 4、掌握Linux下软件包管理,包括命令rpm、…

公交IC卡收单管理系统 多处 SQL注入致RCE漏洞复现

0x01 产品简介 公交IC卡收单管理系统是城市公共交通领域中不可或缺的一部分,它通过集成先进的集成电路技术(IC卡)实现了乘客便捷的支付方式,并有效提高了公共交通运营效率。系统集成了发卡、充值、消费、数据采集、查询和注销等多个功能模块,为公交公司和乘客提供了全面、…

领夹麦克风哪个品牌音质最好,主播一般用什么麦克风

在这个信息爆炸的时代,清晰的声音传达显得尤为重要。无论是激情澎湃的演讲,还是温馨动人的访谈,一款优质的无线领夹麦克风都能让声音清晰的传播。但市场上产品繁多,如何挑选出性价比高、性能卓越的无线领夹麦克风呢?本…

c4d.python 旋转一个对象

How to Rotate an Object 第一种方法 import c4ddef main():selected doc.GetActiveObject()if selected:#获取这个物体的矩阵,设置它的偏移再设置回来.mg selected.GetMg()mg c4d.utils.MatrixRotY(c4d.utils.DegToRad(45.))selected.SetMg(mg)main() 第二种方法 import…

图书系统|图书个性化推荐系统|基于springboot的图书个性化推荐系统设计与实现(源码+数据库+文档)

图书个性化推荐系统目录 目录 基于springboot的图书个性化推荐系统设计与实现 一、前言 二、系统功能设计 三、系统实现 四、数据库设计 1、实体ER图 2、具体的表设计如下所示: 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#x…

Web 自动化实战经验硬核总结

一、元素定位常用方法 1. xpath规则说明 "/" : 表示从根节点选取 "//" : 从匹配选择的当前节点选择 "" : 选取属性 "*" : 匹配任何元素节点 "*" : 匹配任何属性节点 1.1 属性使用说明 placeholder 用法&#xff1a…

游戏录制没有声音怎么办?简单的解决方法分享

在享受游戏乐趣的同时,不少玩家也喜欢通过录制游戏视频来分享自己的精彩瞬间或是攻略心得。然而,有时在满心欢喜地开始录制后,却发现录制的视频竟然没有声音,这无疑是一大遗憾,今天我们就来看看这个问题怎么解决吧~ 游…

vue 中获取数值但是只获取到了 Promise 属性,获取不到其中的值

左边的请求能获取到数据,右边的不行? 改成这样即可

即插即用篇 | YOLOv8 引入单头视觉Transformer模块 | CVPR 2024

本改进已同步到YOLO-Magic框架! 最近,高效的视觉Transformer在资源受限的设备上以低延迟表现出了出色的性能。传统上,它们在宏观层面上采用44的Patch嵌入和四阶段结构,而在微观层面上使用多头配置的复杂注意力机制。本文旨在通过内存高效的方式解决各个设计层面的计算冗余问…

Python 从入门到实战28(文件的读操作)

我们的目标是:通过这一套资料学习下来,通过熟练掌握python基础,然后结合经典实例、实践相结合,使我们完全掌握python,并做到独立完成项目开发的能力。 上篇文章我们讨论了文件的打开、创建、关闭的相关知识。今天我们将…

9_25_对话框

QColorDialog(调色板对话框) void MainWindow::on_pushButton_clicked() { // //创建一个调色板对话框 // QColorDialog* dialog new QColorDialog(this); // //设置调色板对话框的初始值,不调整默认是白色 // dialog->setCurrentColor(…

edu某智慧平台 ExpDownloadService.aspx接口任意文件读取漏洞复现 [附POC]

文章目录 edu某智慧平台 ExpDownloadService.aspx接口任意文件读取漏洞复现 [附POC]0x01 前言0x02 漏洞环境0x03 漏洞复现1.访问漏洞环境2.构造POC3.复现edu某智慧平台 ExpDownloadService.aspx接口任意文件读取漏洞复现 [附POC] 0x01 前言 免责声明:请勿利用文章内的相关技…

考虑电网交互及禁止运行区的风电、光伏与火电互补调度运行(MATLAB-Yalmip-Cplex全代码)

针对火电机组在某些区域存在禁止运行区(POR)的问题,若直接在yalmip中设置变量x约束:constraints = [Ppor_min<=x<=Ppor_max];,则造成的离散优化空间无法求解。 然而,我们可以借用yalmip越发完善的函数处理该约束。即在 YALMIP 中,implies 函数用于表示蕴含关系,…

记一次堆内存泄漏排查过程

记一次堆内存泄漏排查过程 前言定位问题 前言 写了一个升级脚本&#xff0c;执行过程中给内存干爆了&#xff0c;不作处理&#xff0c;自己又好了&#xff0c;神奇吗&#xff1f; 日志中内存溢出:java.lang.OutOfMemoryError: Java heap space 定位问题 top命令查看最耗CPU…

OceanBase云数据库战略实施两年,受零售、支付、制造行业青睐

2022年OceanBase推出云数据库产品OB Cloud,正式启动云数据库战略。两年来OB Cloud发展情况如何&#xff0c;9月26日&#xff0c;OceanBase公有云事业部总经理尹博学向记者作了介绍。 尹博学表示&#xff0c;OB Cloud推出两年以来&#xff0c;已服务超过700家客户&#xff0c;客…

遥感图像语义分割数据集制作(使用ArcGIS Pro)

0. 引言 图像分割就是把图像空间按照一定的要求分成一些“有意义”的区域的技术叫图像分割。一幅图像通常是由代表物体的图案与背景组成&#xff0c;简称物体与背景。若想从一幅图像中“提取”物体&#xff0c;可以设法用专门的方法标出属于该物体的点&#xff0c;如把物体上的…