计算机视觉的热门研究方向与发展趋势

news2025/1/22 16:08:39
  1. 计算机视觉产业链

  2. 工业界:对学术研究提出需求

    最火的两个概念:自动驾驶和元宇宙

    相关热点研究方向:

    (1)建图技术:三维重建技术,包括SLAM、定位、建图、更新等技术;(2)点云理解技术:三维理解技术,包括点云检测、分割等技术;

    (3)街景理解技术:街景图像视频识别、检测、分割等技术;

    (4)三维渲染技术。

  3. 学术界:自驱的学术研究

    CVPR:检测、3D、分割、视频、表示学习;(2021)

    CVPR:多角度三维视觉、图像视频生成、识别检测分类检索;(2022)

    ICCV:视频,3D,检测,分割,表示学习和Transforer。(2021)

    总结:(1)基于transformer的视觉;

               (2)基于self-supervised的无标注视觉技术。

               (3)生成式对抗网络图像生成


  4. 图像识别主要算法

    图像识别流程:图像采集、图像预处理、特征提取、特征识别

    图像预处理:ROI提取、图像滤波与增强;

    特征提取:LBP、SIFT、HOG、CNN等等

  5. 目标检测主要算法

    (1)双阶段目标检测:RCNN、Fast RCNN、Faster RCNN、FPN、Mask RCNN;

    (2)单阶段目标检测:YOLO、SSD、RetinaNet;

    (3)基于transformer:Ralation Net、DETR。

  6. 自动驾驶主要算法


7. 计算机视觉发展趋势

五大发展趋势:

(1)优化数据质量

(2)应用于健康和安全领域

(3)应用于零售业(无人商店、掌脉识别等)

(4)自动驾驶汽车领域

(5)边缘计算领域


8. 计算机视觉-学术界与工业界GAP有多大?

2020年7月31日,由中国图象图形学学会主办、视觉大数据专委会承办,北京智源人工智能研究院和美团协办的ECCV 2020中国预会议成功举办。本次ECCV预会议秉承传统,组织了圆桌论坛,邀请来自工业界、学术界大咖,他们围绕“计算机视觉:学术界与工业界GAP有多大”这个主题谈及了各自的理解并分享了一些精彩观点。

圆桌论坛由中科院自动化所的董晶博士主持,Wormpex AI Research 副总裁兼首席科学家华刚博士、华为云首席科学家田奇博士、微软亚洲研究院资深研究员王井东博士、美团AI平台视觉中心负责人魏晓林博士以及上海交通大学的熊红凯教授同框在线进行话题讨论。

精选观点

精选了圆桌论坛中10条专家观点,大家可以先睹为快:

  • 在学术界的研究生需要有一种哲学的思辨能力。

  • 对于做研究的人来讲,写作这个事情可能对你一生来讲都是非常有帮助的。

  • 学生需要有“T型”的知识架构,不仅要在某个领域研究得深,而且还要有知识的广度。

  • 那些真正能做产品的人才,能够从客户的角度,去发现社会和用户需要什么。对待新的研究方向也有很好的敏感性。

  • 工业界跟学术界往往是一个Mix,工业界和学术界的紧密结合是一个双赢的局面。

  • 可能工业界像是“市场经济”,学术界可以说一定程度上是更偏向于“计划经济”。

  • 学术界和工业界之间的GAP就是从基础研究到落地,我们称为“使用鸿沟”。核心就是说,一般我们讲的学术界是从0到1,而工业界是从1到n。那么,怎么把“0到1”和“1到n”衔接到一起,就怎么缩短这样的“使用鸿沟”。

  • 在学术界,你的论文发表了之后,研究就结束了。但在工业界是不一样的,论文发表可能意味这个工作才刚刚开始,后面还有很长的路要走,还要把技术经过一些改进,使它能够成熟到去支持业务的落地。

  • 计算机视觉的发展趋势预测:深度学习与计算机视觉结合的可解释性、安全性、鲁棒性、透明性;小样本训练、自监督学习、知识图谱、模型压缩;数据高效、软硬结合。

  • 计算机视觉应用的行业机会可能存在于以下几个领域:安防、无人驾驶、线下零售。

以下系对Panel讨论环节的文字实录,希望能对大家有所帮助或者启发。

熊红凯:工业界的话,相信其他几位老师比我更有经验。我就谈谈我在学术界的一些体会。以前我对计算机视觉是有一定偏见的,因为计算机视觉当时的目标是让计算机像人一样具有视觉的观感。小时候看书,说我们人类面临三个世界,一个是虚拟的意识世界,另一个是现实的物理世界,第三个是真理世界,也就是数学世界。过去我们做学术其实更多的是面向数学世界,去寻找和发现这个世界上所存在的真理和规律。后来计算机视觉打开了这个窗口,我感觉计算机视觉实际上是在把人的意识世界和现实物理世界做了某种关联。

从这个角度来讲,我觉得学术研究现在存在一个分歧,是应该更多的去面对真理和规律,还是说只去做现实世界与虚拟世界的一种关联。当然,我们可以比较客观地说,计算机视觉是让计算机去创造一种新的物种,像人一样具有可辨识、可观察的能力。但是,有一些理性的人也会认为,计算机视觉更多的还是一种麻痹人自身的娱乐方式。我原来对计算机视觉的偏见可能就是来自这方面。

但是今天,我们可以看到现代生活方式的变化已经不可逆转了。计算机视觉技术已经延伸到很多客观的方面,而并不仅仅在于娱乐或者是消费的方面。因此,我觉得学术界和工业界就会慢慢地有一些融合,因为工业界毕竟更多的重心还是在于应用和市场的开拓;而在学术界,现在慢慢从原来的真理探索开始向人类领域进行拓展,也在与工业界找到一些共通点。

我觉得计算机视觉方向的研究生,既然做研究,必然面临这些方面的思考,就是你做的东西到底有什么用?并不仅仅只是体现在经济效益上。所以我认为,在学术界的毕业生需要有一种哲学的思辨能力,而并不仅仅是做一种技术的应用,也并不仅仅是提高一些效率。我觉得学术型人才必须找到一些能够打动他自己的、确实存在的规律和真理,而不仅仅是把现实和虚拟做一些简单的融合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/434239.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学习机器人SLAM导航核心技术(一)

本章节,我们将学习基于SLAM导航的机器人技术。 学习资料主要参照张虎的《机器人SLAM导航核心技术与实战》和高翔的《视觉SLAM十四讲》。 以机器人SLAM导航核心技术与实战作为学习的技术路线。在此基础上增加自己学习到的内容。 第1章:ROS入门必备知识 …

Git介绍与相关操作

git简介 git是用于版本控制的软件,保留历史记录,便于回溯 GitHub中文官方文档 访问GitHub GitHub520 无法访问GitHub太常见了,主要方法就是查ip,改本地host文件。 GitHub520本质也是修改hosts来实现,但是无需手动查…

Pycharm Debug调试技巧

Pycharm Debug调试 Python中的Bug是指程序在执行过程中出现错误的情况。这些错误可能会导致程序崩溃、输出意外的结果或者根本不运行。 常见的Python Bug包括: 语法错误:例如拼写错误、缺少冒号、使用了错误的缩进等等。逻辑错误:程序可以…

草图大师su通过照片建模建筑 零插件sketchup

打开sketchup,相机-匹配新照片。照片的要求: “匹配照片”最适合主要由直角组成的结构。您肯定至少需要一个直角才能使用匹配照片。使用从角落以大约 45 度角拍摄的照片。上图来自谷歌街景图是以 45 度角拍摄的图像示例。如果您正在拍照,则可…

模糊数学求传递闭包(C语言)

一、问题描述 我们在模糊数学中利用传递闭包法进行聚类分析的时候,需要求模糊相似矩阵的传递闭包,对于阶数比较高的矩阵,手工计算太过于繁琐,我们可以借助程序实现。 我们先来看一下模糊矩阵的合成规则: 设为有限论域…

ChatGPT能取代传统伪原创工具吗?

文章伪原创工具是一种计算机辅助写作工具,通过算法和技术实现对原有文章内容进行修改和改写,生成新的、看起来不同于原文的文章,以达到避免抄袭和提高原创性的目的。今天我们来聊聊传统伪原创工具和使用ChatGPT进行文章改写的优缺点。 一、传…

【状态估计】电力系统状态估计的虚假数据注入攻击建模与对策(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

C++ Linux Web Server 面试基础篇-操作系统(一、Linux基础)

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三…

SpringBoot访问静态资源和jar外部静态资源,部署前端打包后的vue项目放入静态资源里

记录一下使用SpringBoot访问静态资源和SpringBoot打包之后的jar外部静态资源,在开发的时候,一般选择前后端分离的方式,前端使用vue 后端使用SpringBoot,通常情况下,部署都是前端通过http去请求后端资源,涉及…

CVE-2021-27905 Apache Solr SSRF漏洞

预备知识 1. 漏洞信息 漏洞编号:CVE-2021-27905 漏洞名称:Apache Solr SSRF漏洞 漏洞描述:Apache Solr是一个开源的搜索服务,使用Java编写、运行在Servlet容器的一个独立的全文搜索服务器,是Apache Lucene项目的开源…

在Claude穿越千年,问了孔子人生问题

📕如果大家还不知道Claude的话,可以先了解下,它是chatgpt最大的竞争对手。他有很多的知识,能做的事情也非常的多。 今天我们就让他用孔子的思想来跟我们对话,看看他会怎么回答我们的人生问题。 我们先问问他&#xf…

组播协议的RP

某组播网络示意图如图,其中MCS1是组播地址(G1)的组播源,PC1和PC2是组G1的接收者。 1.上述组播网络中,端口1、2、3需要运行哪些协议,为什么需要运行这些协议?(仅填必配的组播协议)详细写出具体原因 结合上述拓扑,考虑到存在RP场景,因此运行组播路由协议为PIM-SM协议,…

『pyqt5 从0基础开始项目实战』07. 次数清零与多行数据删除(保姆级图文)

目录 导包和框架代码 次数清零按钮添加绑定事件实现数据清零 数据删除按钮添加绑定事件实现删除功能完整代码总结 欢迎关注 『pyqt5 从0基础开始项目实战』 专栏,持续更新中 欢迎关注 『pyqt5 从0基础开始项目实战』 专栏,持续更新中 导包和框架代码 请…

GEE:Gmeans图像分割

G-means是一种聚类算法,它是基于K-means算法的改进版本。K-means算法的一个主要缺点是需要事先指定聚类的数量,而G-means算法则可以自动确定聚类的数量。 G-means算法使用了类似于K-means的迭代过程,但在每次迭代时,它会检查每个聚类是否可以继续细分为两个子聚类。这个检…

保护你的数字资产:网络安全的重要性和应对策略

网络安全已经成为现代企业和组织的重要问题。在数字化的时代,网络攻击和安全威胁的规模和复杂性不断增加,因此保护数字资产变得越来越重要。而Log360作为一款全面的网络安全解决方案,可以帮助企业识别、分析和应对网络安全威胁,从…

【PyTorch】第六节:乳腺癌的预测(二分类问题)

作者🕵️‍♂️:让机器理解语言か 专栏🎇:PyTorch 描述🎨:PyTorch 是一个基于 Torch 的 Python 开源机器学习库。 寄语💓:🐾没有白走的路,每一步都算数&#…

【SCI电气】考虑不同充电需求的电动汽车有序充电调度方法(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

【Python】【进阶篇】二十、Python爬虫实现Cookie模拟登录

目录 二十、Python爬虫实现Cookie模拟登录20.1 注册登录20.2 分析网页结构20.3 编写完整程序 二十、Python爬虫实现Cookie模拟登录 在使用爬虫采集数据的规程中,我们会遇到许多不同类型的网站,比如一些网站需要用户登录后才允许查看相关内容&#xff0c…

【获奖案例巡展】信创先锋之星——甘肃省住房和城乡建设厅住建数据大脑

为表彰使用大数据、人工智能等基础软件为企业、行业或世界做出杰出贡献和巨大创新的标杆项目,星环科技自2021年推出了“新科技 星力量” 星环科技科技实践案例评选活动,旨在为各行业提供更多的优秀产品案例,彰显技术改变世界的力量&#xff0…

推进数字化转型进程,AntDB数据库协同神州云动共促新发展

当今,数字化转型已成为企业发展的必由之路。随着新技术的不断发展和市场的日益竞争,越来越多的企业开始意识到数字化转型的重要性,在帮助企业数字化转型过程中,高效的客户关系管理软件和具有灵活性、可伸缩的数字底座,…