带着GPT-4V(ision)上路,自动驾驶新探索

news2025/1/11 18:00:27

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

在这里插入图片描述

GitHub | https://github.com/PJLab-ADG/GPT4V-AD-Exploration

arXiv | https://arxiv.org/abs/2311.05332

自动驾驶技术的追求取决于对感知、决策和控制系统的复杂集成。传统方法,无论是数据驱动还是基于规则的方法,都因其无法把握复杂驾驶环境和其他道路使用者意图的能力而受到阻碍

这一点尤其是在发展常识推理和对安全可靠的自动驾驶所必需的微妙场景理解方面,一直是一个重要的瓶颈。视觉语言模型(VLM)的出现代表着实现完全自主驾驶汽车的一个新领域。本报告对最新的 VLM 技术进行了详尽的评估,并探讨了其在自动驾驶场景中的应用

作者团队研究了该模型理解和推理驾驶场景、做出决策,并最终充当驾驶员角色的能力。涵盖从基本场景识别到复杂因果推理和在不同条件下实时决策的全面测试。研究结果显示,与现有的自动驾驶系统相比,视觉语言模型在场景理解和因果推理方面表现出色

文章展示了处理分布之外场景、识别意图并在实际驾驶环境中做出明智决策的潜力。然而,仍然存在一些挑战,特别是在方向判断、交通灯识别、视觉引导和空间推理任务方面。这些局限性强调了进一步的研究和开发的必要性

NExT-Chat: An LMM for Chat, Detection and Segmentation

在这里插入图片描述

arXiv | https://arxiv.org/abs/2311.04498

大型语言模型(LLMs)的发展极大地推动了多模态理解领域的进步,使得大型多模态模型(LMMs)不断涌现。为了提高对视觉的理解水平,近期的研究将通过将物体边界框坐标表示为一系列文本序列pixel2seq)使得LMMs配备了区域级别的理解能力

在本文中,引入了一种称为 pixel2emb 方法的物体定位建模新范例,其中要求 LMM 输出位置embedding,然后通过不同的解码器对其进行解码。允许在多模态对话中使用不同的位置格式(如bounding boxesmask

此外,这种embedding-based的位置建模可以结合检测和分割等定位任务。在资源有限的场景中, pixel2emb 在位置输入和输出任务中表现出比SOTA方法更优越的性能。通过利用所提出的 pixel2emb 方法,还训练了一个名为 NExT-Chat 的 LMM,并展示了它处理多任务(如视觉引导、场景描述和基础推理)的能力

Video Instance Matting

在这里插入图片描述

arXiv | https://arxiv.org/abs/2311.04212

传统的视频抠图为视频帧中出现的所有实例输出一个 alpha 遮罩。虽然视频实例分割提供了时间一致的实例掩模,但由于应用了二值化,其结果对于抠像应用来说并不理想

为了解决这个问题,本文提出了视频实例抠图(VIM),即在视频序列的每一帧中估计每个实例的 alpha 抠图。具体的,提出 MSG-VIM,即 Mask Sequence Guided Video Instance Matting 神经网络,作为 VIM 的新基线模型

MSG-VIM 利用混合的掩模增强来使预测对不准确和不一致的掩模引导更具有鲁棒性。它结合了时间掩模和时间特征引导,以提高 alpha 抠图预测的时间一致性。此外,建立了一个新的 VIM 基准,称为 VIM50,其中包括 50 个视频剪辑,具有多个人类实例作为前景对象

为了评估在 VIM 任务上的性能,引入了一个度量标准,称为 Video Instance-aware Matting Quality(VIMQ)。所提 MSG-VIM 在 VIM50 上构建了一个强有力的baseline,并在很大程度上优于现有方法。该项目开源在

https://github.com/SHI-Labs/VIM

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

在这里插入图片描述

arXiv | https://arxiv.org/abs/2311.02077

本文提出 EmerNeRF,这是一种简单而强大的方法,用于学习动态驾驶场景的时空表示。基于神经场,EmerNeRF 通过自助引导同时捕捉场景几何、外观、运动和语义

EmerNeRF 依赖于两个核心组件:

  • 首先,将场景分为静态场和动态场。这种分解是通过自我监督产生的,使模型能够从一般的野外数据源中学习
  • 其次,EmerNeRF 从动态场中参数化一个引导流场,并使用该流场进一步聚合多帧特征,提高动态对象的渲染精度

将这三个场(静态、动态和流)耦合在一起使 EmerNeRF 能够自给自足地表示高度动态的场景,无需依赖地面真值对象注释或预训练的动态对象分割或光流估计模型。本文方法在传感器模拟中实现了最先进的性能,在重建静态(+2.93 PSNR)和动态(+3.70 PSNR)场景时显著优于先前的方法

此外,为了增强 EmerNeRF 的语义泛化,将 2D 视觉基础模型特征提升到 4D 时空,并解决现代 Transformers 中的一般位置偏差,显著提高了 3D 感知性能(例如,在occupancy预测准确度上相对提高了 37.50%)。最后,构建了一个多样且具有挑战性的120-sequence数据集,以在极端和高度动态的环境中对神经场进行基准测试

Holistic Evaluation of Text-To-Image Models

在这里插入图片描述

项目地址 | https://crfm.stanford.edu/heim/v1.1.0
GitHub | https://github.com/stanford-crfm/helm
arXiv | https://arxiv.org/abs/2311.04287

最近的文本到图像模型令人惊叹的质量改进引起了广泛的关注。然而,他们缺乏对其能力和风险的全面定量了解。为了填补这一空白,本文引入了一个新的基准:文本到图像模型的整体评估(HEIM)

虽然之前的评估主要关注文本图像对齐和图像质量,但作者确定了 12 个方面,包括文本与图像的对齐、图像质量、美感、独创性、推理能力、知识水平、偏见、有害信息、公平性、稳健性、多语言支持和效率

他们策划了62个涵盖这些方面的场景,并在这一基准测试中评估了26个最先进的文本到图像模型。结果显示,没有单一模型在所有方面都表现出色,不同模型展现出不同的优势

以上就是本期全部内容,我是啥都生,下次再见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1264385.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第八节HarmonyOS @Component自定义组件的生命周期

在开始之前,我们先明确自定义组件和页面的关系: 1、自定义组件:Component装饰的UI单元,可以组合多个系统组件实现UI的复用。 2、页面:即应用的UI页面。可以由一个或者多个自定义组件组成,Entry装饰的自定…

消息队列进阶-1.消息队列的应用场景与选型

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家📕系列专栏:Spring源码、JUC源码、Kafka原理🔥如果感觉博主的文章还不错的话,请&#x1f44…

Nacos源码本地搭建流程及目录结构解读

下载地址 https://github.com/alibaba/nacos 目录结构 本地单机启动 首先maven编译完成之后在console下面找到Nacos 这个就是主启动类 然后再vm中配置参数-Dnacos.standalonetrue表示单机启动 当控制台没有报错 访问 http://localhost:8848/nacos 控制台界面登录进来之后显…

LLM能力与应用全解析

一、简介 经过几年时间的发展,大语言模型(LLM)已经从新兴技术发展为主流技术。而以大模型为核心技术的产品将迎来全新迭代。大模型除了聊天机器人应用外,能否在其他领域产生应用价值?在回答这个问题前,需要…

澳大利亚访问学者子女入学政策-附实例体会

很多访问学者出国交流时,希望子女携签,一起到异国体验不同的生活方式,拓宽视野,增加认知。如果能免费入读当地的公立中小学,还可以获得自然习得英语的机会。那么澳大利亚的访问学者能否达到这一目的?需要准…

TiDB 7.x 源码编译之 TiDB Server 篇,及新特性详解

本文将介绍如何编译 TiDB Server 源码。以及阐释 TiDB Server 7.x 的部分新特性。 TiDB v7.5.0 LTS 计划于 2023 年 11 月正式 Release,目前代码虽未冻结,但已经可以看到 Alpha 版本的 Code 了,本文代码将以 v7.5.0-alpha 为基准。 TiDB Se…

【substance painter】如何制作一个生锈磨损的枪

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:Uni…

智能优化算法应用:基于花授粉算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于花授粉算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于花授粉算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.花授粉算法4.实验参数设定5.算法结果6.参考文献7.…

C++ string类(二)

insert&#xff1a; erase&#xff1a; 常见用法&#xff1a; int main() {string s1("hello world");string s2("gm");s1.insert(5,"x");cout << s1 << endl;s1.insert(6,s1,0);cout << s1 << endl;s1.insert(0,&qu…

conda环境下 ERROR: CMake must be installed to build dlib问题解决

1 问题描述 pip install -r requirements.txt 在构建video_retalking项目过程中&#xff0c;使用命令安装依赖包时&#xff0c;出现如下错误&#xff1a; Building wheels for collected packages: face-alignment, dlib, ffmpy, futureBuilding wheel for face-alignment …

Unity中Shader的BRDF解析(三)

文章目录 前言一、BRDF中的镜面反射项二、分别解析每一个参数1、D、G函数&#xff1a;speclarTerm2、其他中间步骤3、光照颜色4、F函数&#xff08;菲涅尔函数&#xff09; &#xff1a;FresnelTermIBL在下篇文章中继续解析 三、最终代码.cginc文件:Shader文件&#xff1a; 前言…

ASCII值对照表

ASCII码是一种7位编码&#xff0c;但它存放时必须占全1个字节&#xff0c;也即占用8位&#xff0c;最高位为0&#xff0c;其余7位表示ASCII码。 ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符包括所有的大写和小写字母&#xff0c;数字0 到9、标点符…

富富集网络图绘制教程

本期教程 前言 今天学习aPEAR包&#xff0c;绘制KEGG和GO功能富集网络图&#xff0c;用起来还是比较方便的&#xff0c;直接将clusterProfiler富集结果进行绘制&#xff0c;对人类、动物等分析结果非常方便。对于模式植物&#xff0c;使用自己制作的GO或KEGG背景文件进行富集分…

5款最常用的Android测试框架(含代码示例)

前言 今天&#xff0c;我们就要说说5款最常用的Android测试框架&#xff0c;并且每个框架都给出了基本的代码示例。 在这我为大家准备了一份软件测试视频教程&#xff08;含面试、接口、自动化、性能测试等&#xff09;&#xff0c;就在下方&#xff0c;需要的可以直接去观看…

Django二转Day02

http #1 http 是什么#2 http特点#3 请求协议详情 -请求首行---》请求方式&#xff0c;请求地址&#xff0c;请求协议版本 -请求头---》key:value形式 -referer&#xff1a;上一次访问的地址 -user-agenet&#xff1a;客户端类型 -name&#x…

Python编程控制Android手机操作技巧示例代码

文章目录 你应该拥有的东西截图TemplateMatching 滑动打电话给某人手机录屏打开手机发送 Whatsapp 消息关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包项目源码合集①Python工具包②Python实战案例③Python小游…

HttpRunner原来还能这么用,大开眼界!!!

hook机制 Httprunner 框架中的 hook 机制相当于unittest框架中的 setup , teardown 函数&#xff0c;用来进行测试用例执行之前的环境初始化以及测试用例执行完毕之后的环境清理操作。 httprunner 中的 hooks 机制可以用在测试用例层级也可以用在测试步骤层级&#xff0c;其关键…

【UE】绘制抛物线并投射物体

效果 步骤 1. 先新建父类为Actor的蓝图&#xff0c;这里命名为“BP_发射物” 打开“BP_发射物”&#xff0c;添加一个球形的静态网格体和一个发射物移动组件 2. 新建一个父类为角色的蓝图&#xff0c;这里命名为“BP_绘制抛物线” 打开“BP_绘制抛物线” 我们希望可以通过控制…

距离向量路由协议——IGRP和EIGRP

IGRP-内部网关路由协议 IGRP&#xff08;Interior Gateway Routing Protocol&#xff0c;内部网关路由协议&#xff09;是一种动态距离向量路由协议&#xff0c;它是Cisco公司在20世纪80年代中期设计的&#xff0c;是Cisco专用路由协议。目前在Cisco高版本的IOS已经对IGRP不提…

掌握 Node.js 事件循环,让代码更高效

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…