AAAI 2023| 旷视研究院入选论文亮点解读

news2024/9/25 1:17:16

2ef3edfd7f891af8eacf0c2d8bf766f3.gif

近日,国际人工智能顶级会议 AAAI 2023 (Association for the Advancement of Artificial Intelligence)公布了录用结果。本届会议共收到来自全球的 8777 篇论文投稿,其中 1721 篇论文被录用,论文录用率为 19.6%。

AAAI 是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的 A 类国际学术会议。本届会议旷视研究院被收录的论文涵盖 3D 重建、多目标跟踪、视觉语言多模态、3D 检测、图像对齐等方向,下面是入选论文概览:

6383206d3405f9642f91fbe2f3217789.png

01

Semi-supervised Deep Large-baseline Homography Estimation with Progressive Equivalence Constraint

基于渐进式等价约束的半监督深度大基线单应性矩阵估计

在大基线(large-baseline)场景中,由于图像间的重合度低以及相对运动大使得单应性矩阵很难直接估计。为此,我们提出一种渐进式的估计策略,将 large-baseline 单应性矩阵转换为多个中间项,将中间项累积相乘就可以重建初始单应性矩阵。我们引入了一种半监督的单应性一致损失,包括用于优化中间项单应性矩阵的有监督项和基于累积重构在不使用光度损失的情况下优化 large-baseline 单应性矩阵的无监督项。同时,我们提出了一个大规模的数据集,涵盖了常规和挑战性场景。

78ab87afd1efe7ce67234a2f0240d5d9.jpeg

所属领域:图像对齐/配准

关键词:半监督、大基线单应性矩阵、图像对齐

02

One is All: Bridging the Gap Between Neural Radiance Fields Architectures with Progressive Volume Distillation

一即一切:通过渐进式体蒸馏弥合神经辐射场架构间的差距

神经辐射场 NeRF可以高质量地重建三维场景,目前多种方法都在争夺其核心结构,包括MLP(NeRF)、张量(Plenoxels)、低秩张量(tensoRF)和哈希表(INGP)等。这些表示都有一定的适应场景,比如基于 hash 的 INGP 模型小、训练快,但由于分辨率混叠等原因,其不如基于张量的 Plenoxels 更易实现对场景的空间编辑。为了弥补 NeRF 系列架构间差异,本文提出了渐进式体蒸馏(PVD)实现对上述不同架构间的任意转换。通过 PVD 得到一个 NeRF 模型通常要比从头训练更快,且在部分数据集上质量更高。

论文链接:

https://arxiv.org/abs/2211.15977

开源链接:

https://github.com/megvii-research/AAAI2023-PVD

fc36203935fb00387c6c7933a6af53ce.png

所属领域:3D重建

关键词:神经辐射场、蒸馏、NeRF、INGP、Plenoxels、tensoRF

03

Generalizing Multiple Object Tracking to Unseen Domains by Introducing Natural Language Representation

利用自然语言表征提升多目标跟踪跨域跟踪性能

本文首先指出当前的多目标跟踪任务多在同一类场景下进行评测,即训练集和测试集取自同一场景(比如MOT17,MOT20),现有的 SOTA 跟踪器在不进行 fine-tune 的前提下直接应用在新场景跟踪性能会大幅下降,为此本文首次提出利用自然语言的高层次语义信息解决跨域跟踪问题,首次将视觉语言预训练模型 CLIP 并将其与 query-basedtracker 结合,基于此搭建的新的多目标跟踪模型 LTrack 可在域内和跨域场景上均实现优异的跟踪性能,为今后利用语言信息与视觉信息结合解决跟踪问题提供一个新的思路。

631003e80a604ebf40a6d544e7e071da.png

所属领域:多目标跟踪,视觉语言多模态

关键词:多目标跟踪、视觉语言模型、跨域

04

BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection with Temporal Stereo

BEVStereo:利用时序立体提升环视 3D 检测中的深度估计准确度

现有的在 3D 检测中利用立体视觉提升深度估计的方法大多无法解决两个问题:过多的显存开销以及无法解决运动物体。BEVStereo 通过引入动态立体视觉的方法解决了这个问题,并且提出了可以感知物体尺寸的 circle NMS, 能够避免计算 rotated IoU 的同时将 box 尺寸考虑进去。

论文链接:

https://arxiv.org/abs/2209.10248

开源链接:

https://github.com/Megvii-BaseDetection/BEVStereo

3242eca5fef35be9f154b3863e0862ac.png

所属领域:3D 检测

关键词:动态立体视觉

05

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

BEVDepth:在 3D 目标检测中获取可靠深度

现有的基于 LSS 的 3D 目标检测算法中,其深度预测模块产生的深度预测结果不够可靠,本文通过加入深度监督,引入相机内外参编码以及深度精修模块,使得 LSS 产生的深度预测变得更加可靠。

论文链接:

https://arxiv.org/abs/2206.10092

开源链接:

https://github.com/Megvii-BaseDetection/BEVDepth/

5a4c9a5aeb4e269bf01fc40f91e7b10c.png

所属领域:3D 检测

关键词:reliable depth

技术信仰,价值务实

旷厂小伙伴们还将带来怎样的技术创新?

让我们一起期待吧!

2e26bd070eae816a48f945c5fe67af28.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/56780.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LeetCode】1796. 字符串中第二大的数字

题目描述 给你一个混合字符串 s ,请你返回 s 中 第二大 的数字,如果不存在第二大的数字,请你返回 -1 。 混合字符串 由小写英文字母和数字组成。 示例 1: 输入:s “dfa12321afd” 输出:2 解释:…

【网络层】动态路由算法、自治系统AS、IP数据报格式

文章目录路由算法路由表 --------协议自己算出最佳路由---找最少的跳数的路路由算法分类静态路由算法---手动配置---军事网络、小网络---缺点 路由更新慢动态路由算法----路由器之间彼此交换信息-------适合大型网络动态路由算法全局性链路状态 路由算法----------OSPF----所有…

远程办公:为远程桌面配置固定的公网TCP端口地址

在上一篇文章《远程办公:通过Cpolar内网穿透,远程桌面控制家里/公司内网电脑》中,我们通过cpolar映射远程桌面3389端口,成功实现了在外远程桌面控制家里/公司的Windows电脑。 但免费使用cpolar所生成的公网地址为随机公网地址&am…

linux软件管家——yum

文章目录1. yum1. 主要概念理解2. yum的使用1.查找软件2. 安装软件1.为什么要加上sudo提高权限?2.正常安装3.直接安装3.卸载软件1. 正常卸载2. 直接卸载3. 动态小火车的展示3. yum源1. 概念2. 查找yum源3. 替换yum源1. 备份yum源2. 更新国内yum源 注意事项 3. 缓存清空1. yum …

Isaac SDK Sim 环境

Isaac 是 NVIDIA 开放的机器人平台。其 Isaac SDK 包括以下内容: Isaac Apps: 各种机器人应用示例,突出 Engine 特性或专注 GEM 功能Isaac Engine: 一个软件框架,可轻松构建模块化的机器人应用Isaac GEMs: 感知、规划到驱动的模块化算法包&a…

使用VC++输出调频波

接此; 使用VC输出调幅波的数值和波形_bcbobo21cn的博客-CSDN博客 前面是基本的调幅;下面来看一下基本的调频; 调频就是使载波的频率随调制信号的频率改变;载波是一个等幅的高频振荡;调制信号就是要传递的信息&#…

ARM mkv210_image.c 文件详解

一、mkv210_image.c 的使用演示 裸机程序中的 Makefile(实际上真正的项目的 Makefile 都是这样的)是把程序的编译和链接过程分开的。(平时我们用 gcc a.c -o exe 这种方式来编译时,实际上把编译和链接过程一步完成了。在内部实际…

WebRTC实战-第二章-使用WebRTC实现音视频通话

目录参考理论iceServerWebRTC共分成三个API,分别对应上面三个作用。getUserMedia调用流程开发步骤leave、peer-leave信令实现offer、answer、candidate信令实现开发获取浏览器的流常规设置设置限制条件创建RTCPeerConnectionRTCDataChannelWebRTC Security外部函数库…

【经验】Word 2021|如何在Word里做出和Markdown中一样漂亮的引用样式

文章目录写在最前方法以及参数1 打开样式窗口2 设置一些基本操作3 打开格式窗口4 修改样式最后一步!保持间隔成品自取写在最前 Word 版本:2021 灵感来自 知乎奶茶叔的回答,以及我自己平时打代码用的代码块样式。但是我将分享我精心调配的参数…

HTML5期末大作业:HTM+CSS+JS仿安徽开放大学官网(web前端网页制作课作业)

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

[附源码]计算机毕业设计养生药膳推荐系统Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

Tsinghua:Finding Skill Neurons in Pre-trained Transformer-based Language Models

这篇文章我觉得研究的挺有意思的。 找到神经网络中最有帮助的神经元的一个过程。这个过程的价值是减少PLM参数的前提下,还能提高模型的效果。 在本文中,我们发现在对特定任务进行快速调整后,预训练的 Transformers1 中某些神经元的激活可以高…

Keras计算机视觉(二)

第一部分 认识CNN 一、quickly start 所见即所得,先看一下CNN在MNIST上的运行Demo from keras import layers from keras import modelsmodel models.Sequential() # 定义一个卷积输入层,卷积核是3*3,共32个,输入是(28, 28, 1…

后端开发怎么做得更优秀?记住这15个好习惯

目录 一. 注释尽可能全面,要写有意义的注释 二. 项目拆分合理的目录结构 三. 尽量不在循环里远程调用或者数据库操作,优先考虑批量进行 四. 封装方法形参 五. 封装通用模板 六. 封装复杂的逻辑判断条件 七. 保持优化性能的嗅觉 八. 可变参数的配…

图的初识·遍历

文章目录深度优先搜索[DFS]实现代码广度优先搜索【BFS】思路图解代码实现广度优先遍历【BFS】图的结构深度优先搜索[DFS] 并不唯一,只是一种情况A−>IA->IA−>I 实现代码 使用邻接表表示图。遍历的时间复杂度O(VE)O(VE)O(VE);邻接矩阵的时间…

使用 Python 和 OpenCV 制作反应游戏

在本文中,将向你展示如何使用 OpenCV 在 Python 中制作一个反应游戏,你可以动手来玩。你可能已经熟悉 OpenCV,OpenCV 基本上允许进行各种图像处理。你可以在下面的视频中看到最终结果,并且可以在此处获取文件:https://…

jsp4S店管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 4S店管理系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开 发,数据库为Mysql,使用ja…

海带软件分享——日常办公学习软件下载安装(百度网盘 | 收藏)

>>>深度学习Tricks&#xff0c;第一时间送达<<< &#x1f680; 写在前面 &#x1f431;‍&#x1f3cd; 本期开始&#xff0c;小海带会定期推荐一些日常办公学习软件及趣味网址&#xff08;内含安装教程&#xff09;&#xff0c;供大家学习交流参考 ~ 小伙…

三层交换技术

数据来源 一、三层交换技术出现背景&#xff1a; 解决之前给网段划分VLAN控制端口&#xff0c;然后使用路由器设置单臂路由的让不同VLAN可以通信的缺点&#xff0c; 单臂路由缺点&#xff1a; 1&#xff09;容易出现网络瓶颈 2&#xff09;容易发生单点物理故障 3&a…

[附源码]Python计算机毕业设计Django海南与东北的美食文化差异及做法的研究展示平台

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;我…