计算机视觉cv模型最新进展速看:

news2024/11/27 0:32:17

华为诺亚实验室等研究者提出动态分辨率网络 DRNet

深度卷积神经网络通畅采用精细的设计,有着大量的可学习参数,在视觉任务上实现很高精
确度要求。为了降低将网络部署在移动端成本较高的问题,近来发掘在预定义架构上的冗余
已经取得了巨大的成果,但对于 CNN 输入图像清晰度的冗余问题还没有被完全研究过,即当
前输入图像的清晰度都是固定的。10 月,华为诺亚实验室、中国科学院大学等机构研究者提
出一种新型的视觉神经网络 DRNet(Dynamic Resolution Network)。基于每个输入样本,
该网络可以动态地决定输入图像的清晰度。该网络中设置了一个清晰度预测器,其计算成本
几乎可以忽略,能够和整个网络共同进行优化。该预测器可以对图像学到其需要的最小清晰
度,甚至能够实现超过过去识别准确率的性能。实验结果显示,DRNet 可以嵌入到任何成熟
的网络架构中,实现显著的计算复杂度降低。例如,DR-ResNet-50 在实现同样性能表现的
前提下可以降低 34%的计算,相比 ResNet-50 在 ImageNet 上提升 1.4 个点的性能同时能够
降低 10%的计算。

 智源、清华研究者提出时空自适应动态神经网络 AdaFocus

10 月,来自北京智源人工智能研究院和清华大学的研究者提出高效视频分析框架 AdaFocus。
该方法突破了传统深度神经网络的静态推理范式,实现了在时间、空间两个维度自适应定位
与目标任务相关性最强的视频帧和关键区域,有效降低了基于深度视频分析方法的计算冗余
性。在 Sth-Sth V2、ActivityNet 等主流视频处理数据集上,AdaFocus 可将模型总体推理AI Frontiers Report 科研发展情况效率相较现有方法提高 2-3 倍。该方法在边缘计算、视频监控、视频推荐等场景有较大的应用前景,也为设计低延迟、低能耗的深度学习基础模型提供了启发性的思路。

https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_Adaptive_Focus_for_Efficient_ Video_Recognition_ICCV_2021_paper.pdf

 谷歌研究者提出多任务训练策略 TAG

多任务学习能够让模型通过在一个任务上学习信息,提升在其他任务上训练的性能。然而,
简单地让模型在所有任务上一块训练可能导致模型性能的下降,且完全搜索所有的任务组合
的成本很高。因此,高效地找到对于训练有提升的任务是一个重要的研究问题。10 月,谷歌
的研究者提出了名为 TAG(Task Affinity Groupings)的多任务训练策略,能够通过一次
运行训练所有任务,并量化单个任务的梯度对于其他任务损失的影响。通过在视觉任务上的
实验,研究者发现这一方法相比单纯同时训练所有任务降低了 10%的测试损失,并且比当前
最佳的任务分组策略快 11.6 倍。

以色列希伯来大学等提出文生高清图模型 StyleCLIP 

3 月,以色列希伯来大学、Adobe 研究院等将 StyleGAN 和 CLIP 模型结合,提出了一种能
够根据文本提示生成高清晰度图像的模型,名为 StyleCLIP。研究者认为,StyleCLIP 能够
结合预训练模型学习到的语义知识,加上生成对抗网络的图像生成能力,能够创造出更逼真
的图像,在实际应用中有一定的优势。

 智源、清华等研究者提出文生图模型 CogView

5 月,智源研究院、清华大学、阿里达摩院的研究者发布了 CogView 文生图模型论文,其将
VQ-VAE 和 40 亿参数的 Transformer 模型结合,通过在风格学习、超高清图像生成、文- 图排序和时尚设计等多个下游任务上进行微调,并采用了消除 NaN 损失等稳定预训练的方法。
实验结果显示,CogView 在模糊化后的 MS COCO dataset 数据集上取得了最高的 FID 结果,
高于以往的 GAN 和 DALL·E。

 

Facebook 研究者提出多任务多模态统一模型 UniT 

8 月,Facebook 研究团队提出了名为 UniT 的多任务多模态统一 Transformer 模型,其基
于统一的 Transformer Encoder-Decoder 架构,能够同时解决视觉、多模态、语言等领域
中的一系列任务,包括目标检测、视觉-文本推理、自然语言理解等。论文表示,该模型在 7
个任务上都有较强的性能。

清华等研究者提出跨模态提示学习模型 CPT 

9 月,清华和新加坡国立大学的研究者提出了跨模态提示学习模型 CPT,其利用颜色对跨模
态预训练模型进行基于提示学习的微调,在视觉定位、场景图生成任务的少次学习场景下较
基线模型取得显著提升。

 微软亚洲研究院、北大研究者提出涵盖三种模态数据的预训练模型 NÜWA(女娲)

11 月,微软亚洲研究院、北大研究者提出统一多模态预训练模型 NÜWA。该模型采用 3D
Transformer 架构,能够生成视觉(图像或视频)信息。通过将该模型在 8 个下游任务上进
行试验,女娲模型在文生图、文生视频、视频预测等任务上实现最佳性能。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/587145.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Midjourney AI绘画中文教程详解(完整版)模型、命令、参数与各种高级用法

我有一种预感,您一下子看不完这篇内容,您得【收藏】一下,以便下次接着看~~ Midjourney AI绘画中文教程,Midjourney是一款2022年3月面世的AI绘画工具,创始人是David Holz。 只要输入想到的文字,就能通过人…

数据库sqlserver-----触发器的插入,更新和删除

在学习触发器之前,先弄清DDL,DML,DQL,DCL的区别: http://t.csdn.cn/Le3wA 触发器就是当执行某个事件的时候触发另一个事件的执行,根据事件的触发时间可分为 before和after Before与After区别:before:(insert、update)可以对new…

数据结构学习记录——树习题—Tree Traversals Again(题目描述、输入输出示例、解题思路、解题方法C语言、解析)

目录 题目描述 输入示例 输出示例 解题思路 解题方法(C语言) 解析 题目描述 有序的二叉树遍历可以用堆栈以非递归的方式实现。 例如: 假设遍历一个节点数为6的二叉树(节点数据分别为1到6)时, 堆…

immersive-translate 安装,个人觉得一款超级好用的浏览器翻译插件

immersive-translate 安装,个人觉得一款超级好用的浏览器翻译插件 immersive-translate 是什么Github 地址主要特性立即安装使用 immersive-translate immersive-translate 是什么 Immersive Dual Web Page Translation Extension - 沉浸式双语网页翻译扩展。 Git…

MSP432学习笔记5——外部中断

所用单片机型号:MSP432P401r 今日继续我的MSP432电赛速通之路。 外部中断是个很有用的配置 STM32几乎每个I/O口都能配置复用为外部中断 但MSP432并不是这样。 我经过查阅数据手册发现支持中断的引脚为: P1^0~ P1^7 P3^0~ P3^7 P5^0~ P5^…

【Python习题】Python课程设计的作业分小组完成得分计算(实现代码)

目录 题目思路分析代码实现效果总结 主要内容是校设课程的习题和课外学习的一些习题。 欢迎关注 『Python习题』 系列,持续更新中 欢迎关注 『Python习题』 系列,持续更新中 题目 【题目描述】Python课程设计的作业分小组完成,规定小组成员1…

​Shodan新手入坑指南​

什么是 Shodan? 首先,Shodan 是一个搜索引擎,但它与 Google 这种搜索网址的搜索引擎不同,Shodan 是用来搜索网络空间中在线设备的,你可以通过 Shodan 搜索指定的设备,或者搜索特定类型的设备,其…

【C++】结构体 - 定义和使用,结构体数组,结构体指针,结构体嵌套结构体,结构体做函数参数,结构体const

文章目录 1. 定义和使用2. 结构体数组3. 结构体指针4. 结构体嵌套结构体5. 结构体做函数参数6. 结构体const 1. 定义和使用 结构体属于用户自定义的数据类型,允许用户存储不同的数据类型。 struct 结构体 {结构体成员列表}; 通过结构体创建变量的方法有三种&…

读数据压缩入门笔记02_二进制和熵

1. 十进制 1.1. 现代数学建立在十进制计数系统之上 2. 二进制 2.1. 二进制计数系统的工作原理与十进制计数系统一样,唯一的区别是前者的基数为2,而后者的基数为10 2.2. 数据压缩所做的就是尽可能减少表示特定数据集时所需的二进制位数量 2.3. 给定任…

WASender - Whatsapp server and bulk sender

WASender 是一个 whatsapp 营销平台,它使用 Laravel 和 Node Js 构建。WhatsApp 是世界上最受欢迎的消息应用程序之一,拥有超过 20 亿活跃用户。这使其成为企业接触潜在客户并与现有客户群互动的有吸引力的平台。WASender 客户可以创建多个设备来向他的目…

NLP基础知识(语法语义、LDA、N-gram、词嵌入)

文章目录 本节课大纲Hyper-simplified linguisticsTerm spotting handling negation, uncertaintyML to expand termspre-NN ML to identify entities and relationsLatent Dirichlet Allocation (LDA)Statistical Models of Language: Zipfs lawvector space embeddings base…

Office project 2016安装

哈喽,大家好。今天一起学习的是project 2016的安装,Microsoft Office project项目管理工具软件,凝集了许多成熟的项目管理现代理论和方法,可以帮助项目管理者实现时间、资源、成本计划、控制。有兴趣的小伙伴也可以来一起试试手。…

【WebLogic】WebLogic 14c服务器实例报BEA-001112的排查和解决

一、问题背景 WebLogic 14c配置了 MySQL 数据源(数据库使用的是MySQL的开源版本 - MariaDB),数据源其中一个 Target 为 WebLogic 应用域的一个受管服务器实例 - appServer1,并且为了增强 WebLogic JDBC Pool 里面的数据库连接的可…

NIO之FileChannel解读

目录 基本概述 打开 FileChannel 从 FileChannel 读取数据 向 FileChannel 写数据 关闭 FileChannel FileChannel 的 position 方法 FileChannel 的 size 方法 FileChannel 的 truncate 方法 FileChannel 的 force 方法 FileChannel 的 transferTo 和 transferFro…

华为OD机试真题B卷 Java 实现【寻找峰值】,附详细解题思路

一、题目描述 给定一个长度为n的数组nums,请你找到峰值并返回其索引。数组可能包含多个峰值,在这种情况下,返回任何一个所在位置即可。 1.峰值元素是指其值严格大于左右相邻值的元素。严格大于即不能有等于; 2.假设 nums[-1] n…

齿轮齿条平动模组的制作

1. 运动功能说明 齿轮齿条平动模组的主要运动方式为直流电机带动2个齿轮沿着齿条平行方向前进、后退。 2. 结构说明 本模组主要是由直流电机、齿轮、齿条、光轴、滑块、机架等组成。 3. 电子硬件 在这个示例中,我们采用了以下硬件,请大家参考&#xff1…

Fiddler抓不到包Fiddler chrome Edge无法抓包原因排查Fiddler死活抓不了包

一、问题描述 我这电脑上的Fiddler莫名其妙的死活就是无法抓包,换了几个版本的Fiddler都没有解决,这里参考了一些网上的教程,最终解决了,该文章算是比较详细的一篇介绍Fiddler无法抓包的教程。无法抓包主要由以下原因导致的&#…

1726_使用Python从dbc文件中提取simulink建模数据定义

全部学习汇总: GreyZhang/python_basic: My learning notes about python. (github.com) 使用dbc文件建模完成CAN通讯是一种比较高效的开发模式,不过在建模的过程中dbc文件中描述的数据需要自己去定义。使用文本编辑工具打开dbc文件可以看到&#xff0c…

中国生物科技公司【Advanced Biomed】申请纳斯达克IPO上市

来源:猛兽财经 作者:猛兽财经 猛兽财经获悉,总部位于台湾台南的生物科技公司【Advanced Biomed】近期已向美国证券交易委员会(SEC)提交招股书,申请在纳斯达克IPO上市,股票代码为(AD…

git的本地分支如何关联远程分支,比如github,gitlab,码云等

文章目录 1. 文章引言2. 本地分支如何关联远程分支2.1 远程有分支2.2 远程无分支 3. 总结 1. 文章引言 今天发布某版本的项目,准备创建个v0point1分支,后期如果修改该版本,直接在该分支上修改即可。 首先,使用git branch v0point…