CVPR 2023 | 美团技术团队精选论文解读

news2024/10/7 6:51:25

本文精选了美团技术团队被CVPR 2023收录的8篇论文进行解读。这些论文既有自监督学习、领域自适应、联邦学习等通用学习范式方面的技术迭代,也涉及目标检测、跟踪、分割、Low-level Vision等典型视觉任务的性能,体现了美团在基础通用技术和垂直领域技术上的全方位创新。这些论文也是美团技术团队与国内多所高校、科研机构合作的成果。希望给从事相关研究工作的同学带来一些启发或者帮助。

dca5089b15fd45a0c2000f88ef74dc80.png

CVPR 全称为 IEEE Conference on Computer Vision and Pattern Recognition,国际计算机视觉与模式识别会议。该会议始于1983年,与ICCV和ECCV并称计算机视觉方向的三大顶级会议。根据谷歌学术公布的2022年最新学术期刊和会议影响力排名,CVPR在所有学术刊物中位居第4,仅次于Nature、NEJM和Science。2023年,CVPR共收到全球9155篇论文投稿,最终2360篇被接收,接收率约为25.78%。​​​​​​​

| 01 Divide and Adapt: Active Domain Adaptation via Customized Learning

论文作者:黄铎峻(中山大学,美团实习生),李继昌(香港大学),陈伟凯(腾讯-美国),黄君实(美团),柴振华(美团),李冠彬(中山大学)

论文下载:PDF

f7791d083dc1df29221908937297874a.png

论文简介:该论文入选焦点论文(Highlight Paper)。近年来,主动领域自适应被提出用于在领域自适应问题中,设计主动学习算法在未标注的目标域数据中选择最有信息量的一小批样本进行标注,来最大化的提升深度学习模型在目标域数据上的性能,达到高效的标注效率。在实际的开放场景中,目标域样本相对于源域数据的可区分度各异,即对于源域上初始化的而言具有不同层次的可迁移性。目前,鲜有工作对可迁移性各异的目标域样本分类讨论,设计高价值样本的采样策略和定制化的领域自适应训练策略。

我们提出了一种分而治之的策略,综合考虑目标域样本与源域数据的差异性,和模型预测的不确定性,来设计主动学习的采样策略,并提出定制化的目标函数来约束具有不同可迁移性的样本子集,进一步实现采样的鲁棒性。实验表明,我们实现了在多种领域自适应场景下的最优性能,包括无监督领域自适应(UDA)、半监督领域自适应(SSDA)和无源域领域自适应(SFDA)等等。

| 02 Efficient Second-Order Plane  Adjustment

论文作者:周力普(美团)

论文下载:PDF

18076c643fa5d9bc01b05a9c0751cd53.png

论文简介:该论文入选焦点论文(Hightlight Paper),推导出了平面优化问题Hessian矩阵的闭式解,由此提出了高效的平面优化问题的二阶优化算法。该算法可以广泛应用于深度传感器的三维高精度重建。

平面通常用于深度传感器的3D重建,例如RGB-D相机和LiDAR。本文研究估计最佳平面和传感器位姿的问题。这由此产生的最小二乘问题在文献中被称为平面调整(PA)。迭代方法常被用来解决这些最小二乘问题。通常,牛顿法很少用于大规模最小二乘问题,因为Hessian矩阵的计算时间复杂度很高。相反,迭代算法通常采用使用Hessian矩阵的近似值,例如Levenberg Marquardt(LM)方法。本文采用牛顿法有效地解决了PA问题。

具体来说,给定姿势,最佳平面有一个闭式解。因此,我们可以从中消除平面参数,它显著减少了变量的数量。此外,由于最佳平面是姿势的函数,这种方法实际上确保了每次迭代都能产生最佳平面,这有利于收敛。其难点在于如何高效计算Hessian矩阵以及由此产生的梯度向量。本文提供一个高效的解决方案。实证结果表明,我们的算法优于目前的SOTA算法。

| 03 AeDet: Azimuth-invariant Multi-view 3D Object Detection

论文作者:冯承健(美团),揭泽群(美团),钟毓杰(美团),初祥祥(美团),马林 (美团)

论文下载:PDF

a9d32260afe39a5fea391abf1bc3a9f5.png

论文简介:近年来,基于鸟瞰图的多视图3D目标检测技术在Brid-Eye-View(BEV)空间通过卷积网络检测物体,取得了巨大的进展。然而,传统的卷积忽略了BEV特征的径向对称性,增加了检测器优化的难度。为了保持BEV特征的固有性质并便于模型优化,我们提出了方位角等变卷积(AeConv)和方位角等变锚。方位角等变卷积的采样网格始终是径向的,因此可以学习到方位不变的BEV特征。而方位角等变锚使得检测头能够学习预测与方位无关的目标。

此外,我们还引入了一种相机解耦的虚拟深度,以统一具有不同相机内参的图像的深度预测。由此产生的目标检测器被称为方位等变检测器(AeDet)。我们在nuScenes数据集上进行了多视图3D目标检测实验:方位等变检测器取得62.0% NDS,显著超越了现有的多视图3D目标检测方法。

| 04 Masked Auto-Encoders Meet Generative Adversarial Networks and Beyond

论文作者:费政聪(美团),范铭源(美团),朱理(美团),黄君实(美团),魏晓明(美团),魏晓林(美团)

论文下载:PDF

55b433adb149833decdb234832fdfb9c.png

论文简介:掩码自动编码器(Mask autoencoder,MAE)预训练方法通过随机掩码图像块(patch),然后训练视觉模型基于未掩码的图像块来重建原始图像的像素。尽管它们在下游视觉任务中表现出很好的性能,但它们通常需要大量的计算才能生效。在本文中,我们介绍了一种基于生成对抗网络(Generative Adversarial Networks,GAN)的预训练框架。

具体来说,将生成器预测的图像和原始掩盖的图像进行拼接,并使用判别器来预测每一个拼接的图像块是否被替换。实验表明,由于对完整图像进行输入建模和反馈,我们提出的MAE-GAN框架比原始的MAE像素重建效果更好。同时,通过共享主网络参数,在相同的模型大小、数据和计算量下,我们的方法学习的视觉表征能力显著优于MAE方法。特别地,我们在ImageNet-1k上预训练了200 epoch的ViT-B模型在下游图像分类结果上优于训练了1600 epoch的ViT-B MAE基准。

| 05 Elastic Aggregation for Federated Optimization

论文作者:陈登盛(美团),胡杰(美团),Vince Junkai Tan,魏晓明(美团),吴恩华(中科院软件所)

论文下载:PDF

8577349ac9359498e1d861e0c47ca916.png

论文简介:在人工智能安全性上,联邦学习旨在保证数据隐私不遭到泄漏的前提下完成模型的协同训练。由于在不同终端设备的数据分布存在较大差异,导致全局共享模型在使用本地数据进行优化以后会偏向本地的数据分布状态。我们称这种现象为「客户端漂移(Client Drift)」。客户端漂移现象的存在,会导致全局共享模型在优化前期收敛缓慢,在优化后期无法达到更优解。

我们提出了弹性聚合( Elastic Aggregation),一种新的参数更新方法用于缓解上述现象。弹性聚合首先利用每个终端设备上的无标签数据计算出对应模型参数对结果产生影响的敏感程度(Parameter Sensitivity),然后这个参数敏感程度来对全局共享模型进行加权聚合更新。弹性聚合是首个在联邦学习中充分利用无标签数据来提升模型性能的方法,并且能够非常容易地嵌入到现有的其它联邦学习优化算法中。实验表明,在联邦学习场景下弹性聚合方法可以显著提升视觉和文本理解任务的性能。

| 06 Bridging Search Region Interaction with Template for RGB-T Tracking

论文作者:惠天瑞(中国科学院信息工程研究所,美团实习生),荀子政(北京航空航天大学),彭风光(北京航空航天大学),黄君实(美团),魏晓明(美团),魏晓林(美团),戴娇(中科院信工所),韩冀中(中科院信工所),刘偲(北京航空航天大学)

论文下载:PDF

05dfffd5ff876f8f83f3dd35ca51884b.png

论文简介:RGB-T跟踪旨在利用可见光(RGB)和热红外(TIR)模态的互补增强能力来改进不同场景下的单目标跟踪效果,其中有效的跨模态交互是方法设计的关键一环。先前的工作直接拼接RGB和TIR的搜索区域特征,或对孤立的RGB和TIR候选框对进行模态融合,导致冗余背景噪声的引入或局部区域内的上下文建模不足。

为了缓解上述局限性,我们提出了模板桥接搜索区域交互(TBSI)模块,该模块利用模板作为媒介,通过收集和分发目标相关的对象和环境上下文来桥接RGB和TIR搜索区域之间的跨模态交互。原始模板也会使用来自模板中介的丰富多模态上下文进行更新。我们将TBSI模块插入到ViT主干网络中,实现统一的特征提取、搜索区域-模板匹配和跨模态交互,在三个主流RGB-T跟踪数据集上取得了超越现有方法的优异性能。

| 07 Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation

论文作者:高晨(北京航空航天大学,美团实习生),彭兴宇(北京航空航天大学),严汨(北京大学),王鹤(北京大学),杨立荣(美团),任海兵(美团),李鸿升(香港中文大学),刘偲(北京航空航天大学)

论文下载:PDF

c3033f5cf4722c17ef00969c7b611c83.png

论文简介:本工作聚焦Vision-Language Navigation(VLN) 任务。在agent导航过程中,需要自适应地设置并实现一系列子目标。然而,先前的方法采用单步规划方案,即在每一步直接执行导航动作。在本工作中,我们提出了一种Adaptive Zone-aware Hierarchical Planner(AZHP),明确地将导航过程分为两个异构的阶段,即通过分区/选区(High-Level Action)和子目标执行(Low-Level Action)以进行分层规划。

具体而言,AZHP通过状态切换模块(SSM)异步地执行两级操作。对于High-Level Action,我们提出了一种Scene-Aware Adaptive Zone Partition(SZP)方法,以自适应地将整个导航区域划分为不同的子区域。通过目标区域选择(GZS)方法,为当前子目标选择合适的区域。对于Low-Level Action,Agent在所选区域执行多步骤导航决策。此外,我们提出HRL策略和辅助监督,以训练AZHP框架。实验证明了我们提出方法的优越性,在多个VLN数据集(REVERIE、SOON、R2R)上均达到了最优的性能。

| 08 PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout 

论文作者:徐筱媛(北京大学,美团实习生),何相腾(北京大学),彭宇新(北京大学),孔浩(美团),张庆(美团)

论文下载:PDF

174108195a0e52edf8cca692fa6d9a0a.png

论文简介:图文展示的布局生成旨在给定的图像画布上自动安排元素(例如:广告文本、图标、衬底)的空间位置,用于广告设计中能够取代呆板的预定义模板。现有的布局生成工作忽略了图像画布与布局的交叉关系,导致两者难兼容。

为此,该论文首先从源域多样性、主题多样性以及布局复杂度三个方面切入,建立图文展示布局数据集和评测基准PosterLayout,并提出设计序列生成网络(Design Sequence GAN),通过引入人类经验的设计序列形成(Design Sequence Formation)算法,将布局自动重组为隐含时间信息的设计序列,并以画布图像的视觉特征作为初始状态,模拟人的设计行为,自动生成与画布内容兼容的布局。实验结果验证了新基准和新方法的有效性,达到超越现有方法的性能。该算法在论文接收前已应用上线,目前已在美团App的外投首页广告制图等场景落地。

----------  END  ----------

 美团科研合作 

美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台,依托美团丰富的业务场景、数据资源和真实的产业问题,开放创新,汇聚向上的力量,围绕机器人、人工智能、大数据、物联网、无人驾驶、运筹优化等领域,共同探索前沿科技和产业焦点宏观问题,促进产学研合作交流和成果转化,推动优秀人才培养。面向未来,我们期待能与更多高校和科研院所的老师和同学们进行合作。欢迎老师和同学们发送邮件至:meituan.oi@meituan.com。

 推荐阅读 

  | KDD 2022 | 美团技术团队精选论文解读

  | ACM SIGIR 2022 | 美团技术团队精选论文解读

  | CVPR 2022 | 美团技术团队精选论文解读

----------  END  ----------

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/652100.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HotSpot虚拟机对象探索与OutOfMemoryError异常

HotSpot虚拟机对象探索与OutOfMemoryError异常 1.HotSpot虚拟机对象探索 1.1对象的创建 不是一直有一个笑话,别人问程序员有没有对象,程序员会说我没有对象,但是我可以new一个出来 这里就可以判断他学过c或者java等语言 在java中对象的创建一般我们都是通过new来创建的,但…

MyBatis01

ORM:对象关系映射 O(Object):Java虚拟机中的Java对象 R(Relational):关系型数据库 M(Mapping):将Java虚拟机中的Java对象映射到数据库表中一行记录&#xff0…

【王道·操作系统】第三章 内存管理

一、内存管理 1.1 内存的基础知识 内存可存放数据,程序执行前需要先放到内存中才能被CPU处理——缓和CPU与硬盘之间的速度矛盾内存地址从0开始,每个地址对应一个存储单元 按字节编址:每个存储单元大小为1字节(B),即8个二进制位按…

【Spring Cloud系列】- Eureka使用详解

【Spring Cloud系列】- Eureka使用详解 文章目录 【Spring Cloud系列】- Eureka使用详解一、概述二、Eureka简介三、Eureka结构与作用Eureka结构图Eureka采用CS(Client/Server,客户端/服务器)架构,它包括以下两大组件 四、Eureka集群及与应用…

梁宁:为什么中国没有像 ChatGPT 和 Vision Pro 这样的创新产品?

6 月 10 日,产品战略专家梁宁和图灵联合创始人刘江围绕“ ChatGPT 真需求”主题进行直播对谈。 梁宁,产品战略专家,曾任湖畔大学产品模块学术主任,联想、腾讯高管,CNET集团副总裁。 工作经历横跨 BAT,与美团…

第14届蓝桥杯Scratch(中级)国赛真题解析2023.5.28

第14届蓝桥杯Scratch(中级)国赛真题解析2023.5.28 一:选择题(50分)第 1 题 单选题(10分) 运行以下程序后,角色说出的数是 ( C )。 *选择题严禁使用程序验证,选择题不答或答错都不扣分 A.150 B.200 C.300 D.600第 2 题 单选题(10分) 对以下程序效果描述完全正确的是 …

【JUC进阶】01. Synchroized实现原理

目录 1、前言 2、Synchronized使用 2.1、对象锁(Instance Lock) 2.2、类锁(Class Lock) 2.3、方法锁(Method Lock) 3、原理分析 3.1、monitor对象 3.2、monitorenter 3.3、monitorexit 3.4、对象…

库克和马斯克之后,比尔盖茨访华,美企认识到中国市场不可替代

微软创始人比尔盖茨已到达了中国,这是美国苹果CEO库克、特斯拉CEO马斯克之后访华的又一位美国重要企业家,那么美国企业家陆续访华是为了什么呢? 一、美企连遭挫折 苹果一季度的业绩显示营收、利润均下滑了个位数,但是苹果看到了隐…

AIGC 加持 Cocos,游戏开发需要几步?

近日,游戏行业知名的 B2B 大会 WN 2023 大会于土耳其首都伊斯坦布尔顺利举办。本次大会邀请了来自全球的游戏开发商、媒体、发行商、分发平台等行业决策者,共同探讨游戏行业未来发展态势,进一步拓展业务,并在世界范围内寻找新的合…

【力扣刷题 | 第十天】347.前k个高频元素 227 简单计算器

前言: 本篇将是最后一篇我们利用栈与队列来解决力扣问题,在下文我们将进入到数这一章,相对应的【夜深人静讲数据结构与算法】专栏中树也会及时更新。 347. 前 K 个高频元素 - 力扣(LeetCode) 给你一个整数数组 nums 和…

【JS】1714- 重学 JavaScript API - Geolocation API

❝ 前期回顾: 1. Page Visibility API 2. Broadcast Channel API 3. Beacon API 4. Resize Observer API 5. Clipboard API 6. Fetch API 7. Performance API 8. WebStorage API 9. WebSockets API 10. Fullscreen API ❞ 本文将深入探讨 Geolocation API 的概念、使…

华为OD机试真题 JavaScript 实现【关联子串】【2023Q1 100分】,附详细解题思路

一、题目描述 给定两个字符串str1和str2,str1进行排列组合只要有一个为str2的子串则认为str1是str2的关联子串,请返回子串在str2的起始位置,若不是关联子串则返回-1。 二、输入描述 qwe dsgfasgfwe 三、输出描述 -1 四、解题思路 读取…

009、体系架构之HTAP

HTAP HTAP技术传统的HTAP解决方案HATP的要求TiDB的HTAP架构TiDB的HTAP特性使用场景 MPP HTAP技术 传统的HTAP解决方案 HATP的要求 可扩展性 分布式事务分布式存储 同时支持OLTP与OLAP 同时支持行存和列存OLTP与OLAP业务隔离 实时性 行存与列存数据实时同步 TiDB的HTAP架构 …

Committer 迎新!这次是来自阿里云的同学

点击蓝字 关注我们 迎新! 截至今天,Apache DolphinScheduler 项目在 GitHub 上的 Star 数已突破 10.6K,贡献者人数也突破了 470 人。社区的不断壮大,离不开每位 Contributor 的支持。 最近,Apache DolphinScheduler 又…

AI模型部署实战:利用CV-CUDA加速视觉模型部署流程

本文首发于公众号【DeepDriving】,欢迎关注。 CV-CUDA简介 随着深度学习技术在计算机视觉领域的发展,越来越多的AI算法模型被用于目标检测、图像分割、图像生成等任务中,如何高效地在云端或者边缘设备上部署这些模型是工程师迫切需要解决的问…

Android 13(T) - 智能指针

Android有一套自己的智能指针管理办法,并且将其运用在源码的各个角落,所以学习Media框架之前,我们有必要先了解下Android智能指针。 本节代码源自于Android 13(T),参考 (aospxref.com) 1 概述 与智能指针相关的总共有5个类&#…

某小厂面试加答案(6.15)

看 Java 面试题就去 www.javacn.site 磊哥新推出《企业面经和答案》栏目,最近会持续更新,欢迎大家订阅此账号查看,或访问 www.javacn.site 查看。 面经来源于牛客,如下图所示: https://www.nowcoder.com/feed/main/det…

OpenAI的创始人World Coin项目介绍

🎯 在一个崇高的目标支持下,不停地工作,即使慢,也一定会获得成功。—— 爱因斯坦 如果你对项目感兴趣请联系v:weixin605405145 一、项目速览 项目背景 Worldcoin由OpenAI的创始人Sam Altman于2019年创立,就…

【C++】的继承

继承的概念及定义 继承的概念 继承(inheritance)机制是面向对象程序设计使代码可以复用的最重要的手段,它允许程序员在保持原有类特性的基础上进行扩展,增加功能,这样产生新的类,称派生类。继承呈现了面向对象程序设计的层次结构…

010、体系架构之TiFlash

TiFlash TiFlash 功能架构异步复制一致性读取场景选择是选择TiKV还是TiFLash TiFlash 功能 异步复制一致性读取(写虽然是异步,但读可以做到一致性)引擎智能选择计算加速 架构 TiFLASH 也是通过raft 算法进行同步,但它不怎么消耗资源,因为它…