UniAD大模型开路,智能车驶入AGI时代

news2024/11/24 21:01:50

作者 |老缅

编辑 |德新

f1b41808e81ca0742228d95af56ed8d1.jpeg

在刚刚结束不久的北京车展上,除一众明星车型亮相,供应链企业也开始大秀肌肉,其中尤其以端到端大模型为代表,焕新一代的智驾技术栈掀起了新一轮热潮。

作为首个提出感知决策一体化自动驾驶通用模型的公司,商汤绝影也在这次车展上第一次向公众展示了面向量产的端到端自动驾驶解决方案UniAD(Unified Autonomous Driving)的道路测试表现

一、UniAD,让智能驾驶「像人一样」

相信不少用户已经关注到,今年以来,几乎所有车企或产业链公司在宣传智驾时,最常用的形容词之一,就是「媲美真人驾驶」。

端到端大模型的出现,其重要方向之一就是解决「驾驶拟人化」的问题。

dd994d86be4b7fe893864dab00bccea5.jpeg

商汤绝影在这次北京车展上,展示出了在无高精地图、仅靠视觉感知的实际道路测试成果

无论是城市道路还是无线的乡村道路上,搭载UniAD的车辆都能准确地完成大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作。

通常城市道路错综复杂,乡村道路更是路况难测,比如永远不知道什么时候会有慢行车挡路;什么时候会有电动小三轮突然从侧方出现;什么时候前方会有占道施工或临时堵塞等等。

这种无固定性、遇到情况需要依靠车主自身经验解决的行驶场景,在自动驾驶领域被称之为Corner Case。

尽管类似场景和挑战,在整个驾驶过程中的占比可能不到10%,能否解决这样的场景,却是智驾从定位「小众科技」赢得大众信任的关键,也是智驾系统安全性的关键。

随着城区智驾成为高阶智驾竞争的主战场,场景计算的复杂度呈指数级增长。大量的人力资源投入也只是增加有限的规则,无法应对数量无限的复杂场景和长尾路况。

基于此,端到端技术的出现开辟了一条新路径,将智驾的开发范式从铺设大量人力,转变为持续算力投入和高质量数据输入。

今年年初,特斯拉开始向部分用户推送FSD V12版本的端到端自动驾驶方案,业内也出现了越来越多的端到端智驾方案,不过大部分端到端方案采用的是更容易落地的由感知和决策两个模型组成的「两段式」架构,两个模型之间依然存在信息传递过滤或丢失的问题。

而UniAD将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,也就是一个完全感知决策一体化的「端到端」技术栈。

8aa0cd4d5c6909f9f81720a40cd12c70.jpeg

借助商汤科技大装置的算力、高质量仿真数据以及模型性能,UniAD端到端方案有更高的能力上限,以及强大的学习和思考能力;数据驱动的端到端模型泛化能力强、迭代效率快,可以帮助车企低成本快速开城;纯视觉感知的无图方案,进一步降低系统的软硬件成本,助力智驾普及,实现全国都能开。

在端到端系统基础上,商汤绝影在这次车展期间还介绍了新一代自动驾驶大模型DriveAGI,推动自动驾驶从数据驱动向认知驱动的跃迁。

e8829fbed352fc6131526c7cb44dd786.jpeg

二、大模型登陆小米SU7,智能座舱升维开卷

在此之前的4月23日,商汤科技发布全新升级的「日日新SenseNova 5.0」大模型。

据悉,6000亿参数的「日日新5.0」采用混合专家架构(MOE),具备更强的知识、数学、推理及代码能力,成为国内首个全面对标甚至超越GPT-4 Turbo的大模型,多模态能力领先GPT-4V

基于端云结合的架构,商汤端侧大模型大幅超越同量级大模型,越级比肩7B、13B大模型,更适合车端部署。

据官方透露,前不久上市的小米SU7将AI大模型带进座舱,而商汤日日新大模型也全面助力小爱同学车载语音场景应用。

但这不是商汤绝影发力座舱体验升维的全部。

据悉,商汤绝影从去年发售的Apple Vision Pro汲取灵感,凭借感知技术和高效的迭代效率,将3D Gaze高精视线交互和3D动态手势交互这两大全新座舱3D交互演示带到现场,让观众体验到更符合人类直觉的舱内交互方式,推动座舱交互向更安全、更便利的3D交互升维进化。

据现场演示,操作人员坐在模仿座舱的屏幕前,通过3D Gaze高精视线交互和3D动态手势交互,方法与Apple Vision Pro相类似。据说,这是全球首创的能够通过视线定位与屏幕图标进行交互的智能座舱技术

目前,采用「非接触式」交互已经成为智能座舱交互革命的必然趋势,而视线交互是最为直接和便捷的方案之一。但过去,受限于精度等原因,DMS通常只能做到分心监测等舱内大面积区域的识别,很难通过它进行具体的交互动作。

商汤绝影全球首创3D Gaze高精视线交互,通过提升视线的精度,能精准识别到驾驶员注视中控屏或者后排用户看向后排屏幕的具体的某个图标并进行交互,实现「所见即所选」。

这背后,是一套「千人千眼」的高精度三维眼球模型

商汤绝影使用先进的眼动追踪技术和高精度的眼部成像设备,收集并分析驾驶员的眼部数据,精准为每个人的定制个性化的眼球模型,再以「千人千眼」的高精度三维眼球模型为基础,结合创新的亚像素级细节定位和信息融合技术,突破了座舱场景下的视线精度难题,配合手势、语音甚至是眨眼等方式,将给用户带来更智能、更个性化的舱内视觉交互体验。

3D动态手势交互则是以超高精的三维手部重建为基础,实时捕捉、识别与分析用户的三维手势动作,实现对车辆功能控制的技术,能让用户通过手势隔空进行各类座舱交互。

商汤绝影表示,已经实现这两大舱内3D交互功能相互配合,如同Vision Pro裸眼上车,革命性改变了座舱交互的方式,让用户从传统的物理按键和屏幕触控方式中解脱出来,打造更符合人类直觉的自然交互体验。

三、绝影寻找自己的「问界」

未来汽车智能化的竞争,本质上是通用人工智能技术融合应用的比拼。」这是商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚的观点。

而在智能汽车的浪潮里,商汤绝影给自己的定位是:加速智能汽车驶入AGI时代的核心技术伙伴,将人工智能技术与汽车产业深度融合,构建了驾 - 舱 - 云三位一体的通用人工智能 (AGI) 技术架构,打造了智能驾驶、智能座舱和AI云的多元产品体系。

从技术实力上来看,背靠商汤的商汤绝影,有毋庸置疑的技术底蕴和研发实力,但再好的技术也需要强力的产品来推动落地和背书。

在这一方面,商汤绝影还需要更多强有力的合作伙伴。

截至2023年12月,商汤绝影已与本田、比亚迪、长城、广汽、红旗、极氪、哪吒、奇瑞、蔚来等超过30家国内外车企携手合作,覆盖超90款车型,累计交付195万辆智能汽车。

其中不乏广汽埃安旗下高端豪华品牌昊铂王牌车型GT这样的高端车型,也有极氪X、奇瑞捷途旅行者等中端定位的车型,但商汤绝影还需要更加强有力的爆款车型,让真正的消费级市场有所感知。

智能车时代,商汤绝影也在找寻自己的那个「问界」。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1672052.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络(第八版 谢希仁 编著) 期末复习大纲

一.每章总结 第一章:分组交换,计网定义、范围划分,性能指标,五层体系结构,TCP/IP体系结构 第二章:物理层,码元,基带调制(数字信号->数字信号,也叫编码),带…

mysql group by 细节介绍

mysql中group by的用法是配合聚合函数,利用分组信息进行统计,语句如“select name,sum(id) from test group by name,number”。 先来看下表1,表名为test: 执行如下SQL语句: SELECT name FROM test GROUP BY name 你…

专业音频修复软件:iZotope RX 11 for Mac 激活版

iZotope RX 专为满足后期制作专业人士的苛刻需求而设计的一款专业音频修复软件。iZotope RX 10添加了新的特性和功能,以解决当今后期项目中存在的一些最常见的修复问题,使其成为音频后期制作的最终选择。虽然包含许多其他新功能,但这里是新的…

Postman基础功能-断言与日志

若能脱颖而出,何必苦苦融入。大家好,在 API 测试的领域中,Postman 是一款极为强大且广泛使用的工具。其中,断言和日志调试功能扮演着至关重要的角色。 一、介绍 断言允许我们在测试过程中验证 API 的响应是否符合预期。通过设定各…

数字人解决方案——AniTalker声音驱动肖像生成生动多样的头部说话视频算法解析

1.概述 AniTalker是一款先进的AI驱动的动画生成工具,它超越了简单的嘴唇同步技术,能够精准捕捉并再现人物的面部表情、头部动作以及其他非言语的微妙动态。这不仅意味着AniTalker能够生成嘴型精准同步的视频,更重要的是,它还能够…

使用LangChain和Neo4j快速创建RAG应用

大家好,Neo4j 通过集成原生的向量搜索功能,增强了其对检索增强生成(RAG)应用的支持,这标志着一个重要的里程碑。这项新功能通过向量索引搜索处理非结构化文本,增强了 Neo4j 在存储和分析结构化数据方面的现…

1-3ARM_GD32点亮LED灯

简介: 最多可支持 112 个通用 I/O 引脚(GPIO),分别为 PA0 ~ PA15,PB0 ~ PB15,PC0 ~ PC15,PD0 ~ PD15,PE0 ~ PE15,PF0 ~ PF15 和 PG0 ~ PG15,各片上设备用其来实现逻辑输入/输出功能。…

基于SpringBoot+微信小程序的订餐(点餐)配送系统设计与实现+毕业论文(12000字)

系统介绍 本微信小程序在线订餐系统管理员功能可以修改个人中心,用户管理,菜品分类管理,菜品信息管理,订单信息管理,取消订单管理,订单配送管理,菜品评价管理以及系统管理。微信小程序用户可以…

【玄机平台】应急响应

前言: 感谢玄机平台靶机的提供,让我学到了不少东西 平台题解 : 第一章 应急响应-webshell查杀 1.黑客webshell里面的flag flag{xxxxx-xxxx-xxxx-xxxx-xxxx} ssh连接 下载/var/www/html源码(finsehll连直接下)压缩丢…

日志的基本用法

目标 1. 掌握如何设置日志级别 2. 掌握如何设置日志格式 3. 掌握如何将日志信息输出到文件中 1. logging模块 Python中有一个标准库模块logging可以直接记录日志 1.1 基本用法 import logging logging.debug("这是一条调试信息") logging.info("这是一条…

【C++杂货铺】红黑树

目录 🌈前言🌈 📁 红黑树的概念 📁 红黑树的性质 📁 红黑树节点的定义 📁 红黑树的插入操作 📁 红黑树和AVL树的比较 📁 全代码展示 📁 总结 🌈前言…

C#【进阶】常用泛型数据结构类

常用泛型数据结构类 文章目录 常用泛型数据结构类1、List1、List的本质2、声明3、增删查改4、遍历思考 存储基类类型列表 2、Dictionary1、Dictionary的本质2、声明3、增删查改4、遍历思考1 数字对应的大写思考 2 字母出现的次数 3、顺序存储和链式存储1、数据结构2、线性表3、…

前端铺子-NodeJS后端:基于Node.js构建高效后端服务的探索与实践

一、引言 随着前端技术的快速发展,越来越多的开发者开始关注前后端分离的开发模式。前端铺子作为一个旨在服务前端开发者的开源项目,近期推出了基于Node.js的后端系统。该系统通过整合Node.js、Nodemon和MySQL等技术,为前端开发者提供了一个…

每日一题 城市群的数量

题目解析 城市群数量_牛客题霸_牛客网 当解决这个问题时,首先需要理解题目要求。题目中给出了一个城市之间的邻接矩阵,矩阵中的元素表示城市之间是否直接相连。如果两个城市直接相连,或者通过其他城市间接相连,它们就属于同一个城…

Java面试八股之String s = “String“;和String s = new String(“String“);有什么区别

Java中String s "String";和String s new String("String");有什么区别 字符串字面量("String"): 常量池:使用字面量方式创建字符串时,Java虚拟机(JVM)会在运…

数组 | 双指针经典题目

Leetcode977:有序数组的平方 . - 力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/squares-of-a-sorted-array/d…

AI2024(64bit) Adobe Illustrator 软件安装包下载

AI2024(64bit) Adobe Illustrator 软件安装包下载地址: 百度网盘下载https://pan.baidu.com/s/1C10-2JVN1rxFF5VFRuV2Yw?pwdSIMS 在创意设计的浩瀚宇宙中,Adobe Illustrator 2024如同一颗璀璨新星,以其无与伦比的创新功能和优化体验&#x…

AI翻唱+视频剪辑全流程实战

目录 一、AI翻唱之模型训练 (1)模型部署 (2)数据集制作——搜集素材 (3)数据集制作——提升音频质量 方法一:使用RVC提供的音频处理功能。 方法二:可以使用音频剪辑工具Ad…

vivado Kintex UltraScale+ 配置存储器器件

Kintex UltraScale 配置存储器器件 下表所示闪存器件支持通过 Vivado 软件对 Kintex UltraScale 器件执行擦除、空白检查、编程和验证等配置操作。 本附录中的表格所列赛灵思系列非易失性存储器将不断保持更新 , 并支持通过 Vivado 软件对其中所列非易失性存…

CommandLineRunner和ApplicationRunner接口实现类中run方法发生异常导致spring程序关闭

今天其他组的一个程序在k8s中启动报错,启动之后立马就关闭了。我去看日志,发现最后面报了一个UnknownHostException异常,感觉是这个原因导致的,然后查看异常栈。定位到一个CommandLineRunner接口实现类,这个实现类里面…