MIT的研究人员最近开发了一种名为“FeatUp”的新算法,这一突破性技术为计算机视觉领域带来了高分辨率的洞察力

news2025/1/4 19:02:08

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

想象一下,你短暂地注视着繁忙的街道,然后试图根据记忆绘制你所看到的场景。大多数人能够大致绘制出车辆、人和斑马线等主要物体的位置,但几乎没有人能够以像素级完美的精度绘制出每一个细节。对于大多数现代计算机视觉算法来说,情况也是如此:它们擅长捕捉场景的高层次细节,但在处理信息时会丢失细粒度的细节。

现在,麻省理工学院(MIT)的研究人员创建了一个名为“FeatUp”的系统,允许算法同时捕获场景的高层次和低层次细节——几乎就像是计算机视觉的Lasik眼科手术。

当计算机通过查看图像和视频学会“看”时,它们通过所谓的“特征”构建对场景中物体的“理念”。为了创建这些特征,深度网络和视觉基础模型将图像分解成一个个小方格,并将这些方格作为一个组处理,以确定照片中正在发生的事情。每个小方格通常由16到32个像素组成,因此这些算法的分辨率远小于它们处理的图像。在试图总结和理解照片时,算法会丢失大量的像素清晰度。

FeatUp算法可以阻止这种信息损失,并提升任何深度网络的分辨率,而不会影响速度或质量。这使研究人员能够快速轻松地提高任何新的或现有算法的分辨率。例如,尝试解释肺癌检测算法的预测,目标是定位肿瘤。在使用类似类激活映射(CAM)的方法解释算法之前应用FeatUp,可以显著更详细地(16-32倍)查看模型可能定位的肿瘤位置。

FeatUp不仅帮助从业者理解他们的模型,而且还可以改善各种不同的任务,如物体检测、语义分割(为图像中的像素与对象标签赋予标签)和深度估计。通过提供更准确的高分辨率特征,它实现了这一点,这些特征对于构建从自动驾驶到医学成像的视觉应用至关重要。

“所有计算机视觉的本质都在于这些从深度学习架构的深处涌现出的深刻、智能的特征。现代算法的一大挑战是它们将大型图像缩小为非常小的‘智能’特征网格,获得智能洞察但失去更细微的细节,”麻省理工学院电气工程与计算机科学博士生、MIT计算机科学与人工智能实验室(CSAIL)附属成员,以及该项目论文共同首席作者之一的Mark Hamilton说。“FeatUp帮助实现了两全其美的情况:具有原始图像分辨率的高度智能表现。这些高分辨率特征显著提高了从增强物体检测到改善深度预测的一系列计算机视觉任务的性能,通过高分辨率分析提供了对网络决策过程的更深入理解。”

团队指出,PyTorch中可用的标准工具无法满足他们的需求,并在他们寻求快速有效解决方案的过程中引入了一种新类型的深度网络层。他们的自定义层,一种特殊的联合双边上采样操作,在PyTorch中的朴素实现中效率提高了100倍以上。团队还展示了这个新层可以改进包括语义分割和深度预测在内的多种不同算法。这一层提高了网络处理和理解高分辨率细节的能力,给任何使用它的算法带来了显著的性能提升。

“另一个应用是所谓的小物体检索,我们的算法允许精确定位物体。例如,在杂乱的道路场景中,通过FeatUp丰富的算法可以看到微小物体,如交通锥、反光器、灯和坑洞,而它们的低分辨率同类则失败了。这展示了它将粗糙特征增强为精细信号的能力,”加利福尼亚大学伯克利分校的博士生Stephanie Fu '22, MNG '23,也是新FeatUp论文的另一位共同首席作者说。“这对于时间敏感的任务尤为关键,如在杂乱的高速公路上定位交通标志。这不仅可以通过将广泛的猜测转化为精确的定位来提高这类任务的准确性,而且可能还会使这些系统更可靠、可解释和值得信赖。”

社区及其它领域内的潜在广泛应用,类似于数据增强实践。“目标是将这种方法作为深度学习中的基本工具,丰富模型以更细致的细节感知世界,而不会带来传统高分辨率处理的计算效率低下,”Fu说。

“FeatUp代表了向着使视觉表示真正有用迈出的美妙进步,通过以完整图像分辨率产生它们,”康奈尔大学计算机科学教授Noah Snavely说,他没有参与这项研究。“在过去几年中,学习到的视觉表示变得非常好,但它们几乎总是以非常低的分辨率产生——你可能会输入一个漂亮的全分辨率照片,然后得到一个微小的、邮票大小的特征网格。如果你想在产生全分辨率输出的应用中使用这些特征,这就是一个问题。FeatUp以一种创造性的方式解决了这个问题,将超分辨率中的经典想法与现代学习方法相结合,产生了美丽的、高分辨率的特征图。”

“我们希望这个简单的想法可以有广泛的应用。它提供了我们之前认为只能是低分辨率的图像分析的高分辨率版本,”麻省理工学院电气工程与计算机科学教授、CSAIL成员的高级作者William T. Freeman说。

首席作者Fu和Hamilton与麻省理工学院的博士生Laura Brandt SM '21、Axel Feldmann SM '21以及Zhoutong Zhang SM '21, PhD '22一起,他们都是MIT CSAIL的现任或前任成员。他们的研究部分得到了国家科学基金会研究生奖学金、国家科学基金会和国家情报总监办公室的支持,以及美国空军研究实验室和美国空军人工智能加速器的支持。该小组将在5月份的国际学习表示会议上展示他们的工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1535693.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【冥想X理工科思维】场景10:长期项目的焦虑和压力

冥想音频合集:职场解压冥想音频 压力场景: 在长期项目中,如何定期冥想帮我保持耐心和持久性? 点击看大图: 详细说明:通过这个冥想流程,你可以帮助自己在长期项目中保持耐心、坚持和放松的状态。…

SAP前台处理:物料主数据创建<MM01>之会计视图

一、背景: 终于来到了物料主数据,我觉得物料账是SAP最重要的一项发明,也一直是SAP的一项重要优势,物料账记录了一个个物料的生生不息; 本章主要讲解物料主数据和财务相关的主要内容:这里特别提示由于作者…

类和对象-4

文章目录 前言const成员函数取地址及const取地址操作符重载构造函数续explicit static成员友元内部类匿名对象 前言 在前面的文章中,我们了解到了类的四个默认成员函数:构造、析构、拷贝构造和赋值重载。接下来我们会继续学习剩下的两个默认成员函数以及…

CAD建筑版2024 安装教程

CAD建筑版是一种专门用于建筑设计和绘图的CAD软件版本。它提供了专业的建筑设计工具和功能,帮助建筑师、设计师和工程师在建筑领域进行快速、准确和高效的设计工作。 CAD建筑版具备建筑相关的库和元素,用户可以方便地使用预定义的建筑符号和元素进行建筑…

二叉树|104.二叉树的最大深度 111.二叉树的最小深度

104.二叉树的最大深度 力扣题目链接 class solution { public:int getdepth(TreeNode* node) {if (node NULL) return 0;int leftdepth getdepth(node->left); // 左int rightdepth getdepth(node->right); // 右int depth 1 max(leftdepth, rightdepth…

嵌入式-4种经典继电器驱动电路-单片机IO端口/三极管/达林顿管/嵌套连接

文章目录 一:继电器原理二:单片机驱动电路三:经典继电器驱动电路方案3.1 继电器驱动电路方案一:I/O端口灌电流方式的直接连接3.1.1 方案一的继电器特性要求3.1.2 方案一可能会损坏I/O口 3.2 继电器驱动电路方案二:三极…

记录一次基于AES加密的恶意软件逆向分析和解密过程(含文件)

导入(Imports)和字符串 首先,用IDA或Ghidra加载文件test.dat,文件为64位文件 IDA点击View==>Open subviews==>Imports,查看导入信息 Ghidra可以直接看到 可以看到,导入函数有: __printf_chk, malloc, __isoc99_sscanf, putchar, __stack_chk_fail, __cxa_fina…

安捷伦Agilent E8361C网络分析仪

181/2461/8938产品概述: 安捷伦e 8361 c网络分析仪提供通用网络分析,可选软件和/或硬件为您的应用定制-如多端口、脉冲射频等。 安捷伦E8361C网络分析仪的显示窗口数量不限,可以调整大小和重新排列,每个窗口最多有24条活动轨迹和…

CSS 脱离标准文档流 浮动

浮动 在标准流当中,元素或者标签在页面上摆放的时候会出现不如意的地方。要想解决这些问题可以采用脱离标准流的方式来进行解决这些问题,脱离标准流也称为脱离文档流。 脱离标准流的解决方式有三种,一种是浮动,另外一种是固定定位…

【Flask】Flask项目结构初识

1.前提准备 Python版本 # python 3.8.0 # 查看Python版本 python --version 安装第三方 Flask pip install flask # 如果安装失败,可以使用 -i,指定使用国内镜像源 # 清华镜像源:https://pypi.tuna.tsinghua.edu.cn/simple/ 检查 Flask 是…

大数据分析-基于Python的电影票房信息数据的爬取及分析

概要 现如今,人民群众对物质生活水平的要求已不再局限于衣食住行,对于精神文化有了更多的需求。电影在我国越来越受欢迎,电影业的发展越来越迅猛,为了充分利用互联网技术的发展,掌握电影业的态势,对信息进行…

【3GPP】【核心网】【4G】4G手机接入过程,手机附着过程(超详细)

1. 4G手机接入过程,手机附着过程 附着(Attach): 终端在PLMN中注册,从而建立自己的档案,即终端上下文 进行附着的三种情况: ①终端开机后的附着,初始附着 ②终端从覆盖盲区返回到…

全栈的自我修养 ———— uniapp中加密方法

直接按部就班一步一步来 一、首先创建一个js文件填入AES二、创建加密解密方法三、测试 一、首先创建一个js文件填入AES 直接复制以下内容 /* CryptoJS v3.1.2 code.google.com/p/crypto-js (c) 2009-2013 by Jeff Mott. All rights reserved. code.google.com/p/crypto-js/wi…

(ROOT)KAFKA详解

生产篇 使用 /** Licensed to the Apache Software Foundation (ASF) under one or more* contributor license agreements. See the NOTICE file distributed with* this work for additional information regarding copyright ownership.* The ASF licenses this file to Y…

使用Windows的“远程桌面连接”Ubuntu主机连接不上问题解决

问题描述: 使用Windows自带的“远程桌面连接”来连接自己的Ubuntu的系统的过程中,自己已经成功安装了 xrdp 文件包,但是在使用“远程桌面连接”时,自己的“远程桌面连接”软件在输入Ubuntu系统的用户名和密码后,连接不…

LRU的设计与实现-算法通关村

LRU的设计与实现-算法通关村 缓存是应用软件的必备功能之一,在操作系统,Java里的Spring、mybatis、redis、mysql等软件中都有自己的内部缓存模块,而缓存是如何实现的呢?在操作系统教科书里我们知道常用的有FIFO、LRU和LFU三种基本…

Java-SSM房租租赁系统

Java-SSM房租租赁系统 1.服务承诺: 包安装运行,如有需要欢迎联系(VX:yuanchengruanjian)。 2.项目所用框架: 前端:JSP、jquery、bootstrap等。 后端:SSM,即Spring、SpringMvc、Mybatis等。 3.项目功能点: 3-1.后端房东功能: 1.…

linux学习之Socket

目录 编写socket-udp 第一步,编写套接字 第二步,绑定端口号 第三步,启动服务器,读取数据 第四步,接收消息并发回信息给对方 编写socket-Tcp 第一步,编写套接字 第二步,绑定端口号 第三步…

解读BGInfo配置命令

命令行中的第一条命令是用于修改Windows注册表的,具体解释如下: reg add HKEY_CURRENT_USER\Software\Sysinternals\BGInfo /v EulaAccepted /t REG_DWORD /d 1 /f reg add:这是一个用来向Windows注册表添加或修改键值的命令行指令。HKEY_C…

『scrapy爬虫』10. 实战爬取自己的csdn信息(详细注释步骤)

目录 1. 数据库建表2. 搭建项目环境创建项目新建爬虫虚拟环境中安装库 定义数据类型(item.py)爬虫(spiders/csdn.py)管道(pipelines.py)中间件(middlewares.py)项目设置(setting.py)运行测试总结 欢迎关注 『scrapy爬虫』 专栏,持续更新中 欢迎关注 『scrapy爬虫』 …