机器的眼睛:漫谈机器视觉(文末送书)

news2024/11/27 0:16:43

眼睛是人心灵的窗户,我们可以通过凝视对方的眼神来理解他人。当有一天你走过一道需要刷脸才能通过的大门,突然间看到一个冰冷的摄像头在凝视着你的时候,你是否也曾若有所思地看着它,心中充满了疑惑——它是如何工作的?我每天的穿着打扮如此不同,它究竟是怎么认识我的?它有记忆吗?会思考吗?

如果要评选人类身上最精巧的器官,那么眼睛一定会在候选名单之中。

视觉能够给我们的生活带来极其丰富的体验,比如坐在海边一座安静的小屋门口,悠闲地看潮涨潮落,离不开视觉;在科研机构的实验室中,科学家们通过显微镜观察细胞的各种结构,靠的是视觉;在一次商业谈判中,我们通过观察对方代表的面部微表情,判断对方的心理从而让我方获取更大的利润,依旧离不开视觉。

通过视觉我们可以获得大量的外部信息,视觉也成为我们与外部世界交互中最有效的手段。

1、机器有视觉吗

视觉对于人类来说非常重要,那么计算机是否也能具有视觉呢?

答案是肯定的。

计算机视觉简称 CV(Computer Vision),这个概念在20世纪下半叶就已被提出。计算机的视觉器官主要是摄像头,如同我们的眼睛一样可以接收图像信号。但是如何处理与分析这些信号,产生“认知”并做出“决策”,才是计算机视觉这项技术的奥秘所在。

图像在计算机世界里通常以一系列网格状像素矩阵的形式出现,这一表示形式是大多数图像处理技术的基础。我们可以通过坐标位置来确定某个像素点的位置,并通过更改该点的像素值来更改图像的显示。

图像的色彩空间常用RGB表示,即 Red(红),Green(绿),Blue(蓝)。空间中的RGB 分布的取值范围为[0, 255],呈均匀分布,如图1所示。

■ 图1 分别输入R、G、B值就能得到想要的颜色(A 指透明度,取值在 0~1)

除了RGB,为了更好地表示图像信息,颜色空间还有两种常用的表示方法:HSV和HLS。

图像处理有很多实际的应用,比如图像增强。例如20世纪50年代末,卫星航拍的图像往往不够清晰,这时候人们通过计算机的图像增强功能来获取更加清晰的图像,从而为专家进行分析提供便利。图像的超分辨率研究如何从低像素图像而获得高分辨率的图像,如在交通领域应用的车牌清晰处理等。

模式识别主要是指识别出图像中某些特定的概念,例如找出图片中的一只猫(图 2), 或在一张充满汉字的图片上找到某个特定的汉字。

■ 图2 不知道这张“猫片”计算机能不能识别出来?

如何在一个基于数学逻辑的机器上形成某种概念,是模式识别和机器学习研究的重点。模式识别在20世纪60年代初开始得到广泛认可,当时就已经有识别程序,能够识别图片中的英文字符。虽然识别效果和现代技术不可同日而语,但模式识别还是能够减少一部分人工的工作量,人们不再需要将字符一个个手动输入计算机。

1965 年,罗伯茨的研究是计算机视觉研究从二维转向三维的标志。

通过一遍遍地让计算机观察圆锥、圆球、立方体等模型的图片(如图3所示),一遍遍地调试程序,罗伯茨成功地让计算机识别出二维图像中的三维结构和空间布局,这使得计算机从二维图像中提取三维信息成为了可能。从此,计算机视觉领域得到突飞猛进的发展。

■ 图3 罗伯茨成功地让计算机识别出二维图像中的三维结构和空间布局

2、计算机视觉能帮我们做什么

如今,计算机视觉在多个领域得到了广泛应用,例如图像增强技术已被广泛应用于医疗、航空航天以及交通监控等方面。

在以往的 X 光检测中,由于一些器官的特殊结构,这些器官在X光片中清晰度不够,从而给医疗诊断带来极大不便。将图像增强技术应用于 X 光检测领域,可以让医生更加准确地诊断病人的病情。

在航空航天以及工业领域,图像增强技术可以有效去除图像中的干扰,获取更清晰的图像以供分析。在图像增强技术和更先进的光学镜头的帮助下,人们在一些军用卫星拍摄的照片中甚至能清晰地分辨出地面上几厘米长度的线段。

在交通监控领域,图像增强技术也带来了巨大的便利。在晴朗的天气中,交通摄像头固然能够良好运作,而在雨天、雾天或是夜晚,摄像头取得的图像会受到干扰。此时,图像增强技术就可以在一定程度上去除这些干扰,更好地监控路面信息以保护我们的安全。

在模式识别方面,计算机视觉的发展就更令人惊叹。现在我们拿起手机拍照时,手机不 仅能够快速且准确地从图片中识别人脸的位置,还能够识别人脸的表情,在微笑时自动拍照(微笑快门)。此外,大家对手机拍照中的美颜功能并不陌生,除了准确识别五官的位置,手机还能在拍照时就针对性地对眼睛、鼻子、皮肤等进行相应的美颜,省去了人们在拍照之后还要花时间去处理图片的烦恼。

2015 年,微软推出了一个网站——How-old.net,这个网站可以对人们上传的图片中的人脸进行识别,根据相应算法预测其年龄。虽然有时候结果不够准确,但完全不影响人们乐此不疲地上传照片。当我们的行李从地铁站、火车站或机场的安检仪中快速滑过时,计算机能根据 X 光图像对行李箱中的物品进行识别,不同物品会以不同颜色色块的形式清晰地呈现在安检员面前。

在漫画创作中,最为费时费力的部分就是给漫画中的角色上色了,很多漫画大师(如宫 崎骏)都是在创作出基础人设和线稿后,将具体人物和分镜头交给工作室的资深漫画家来做, 而上色部分则是最没有技术含量但是最耗费人工的部分。

如果用基于机器学习的图像处理方法,算法可以学习到一个线稿与颜色之间的关系,然后自动给漫画上色。比如图4中的小猫,即使我们改变它的形态,算法仍然可以学习到为其上色的方法。

■ 图4 漫画自动上色

3、如何让计算机理解“眼前”的世界

在计算机视觉发展初期,研究的重点还仅限于“看见”。对于人类来说,视觉不仅仅是为了看见,而是为了对看见的事物做出反应,更好地理解这个世界。因此专家们也希望能赋予计算机这样的能力。

一款名为Kinect 的带有深度传感器的摄像头能够捕捉这个人做出的动作,根据不同的动作,Kinect 背后的计算机会做出不同的反应,这也就是人们常说的“体感游戏”。这种不需要手柄,靠自己的身体动作来操纵的游戏机在当时受到了热烈追捧。

还有一项计算机视觉技术也正逐步来到我们身边。我们在看电影时一定都见过这样的场景,在一个人流量巨大的场所(比如机场),警察为了追踪一个罪犯,在监控室中将罪犯的头像与监控器中的人脸进行比对。在经过短暂的比对后,罪犯的人脸在监控画面上被标记出来。更令人惊叹的是,监控摄像头一旦锁定了目标,就一直自动跟随着目标移动,直至罪犯被警察抓住。

今天的计算机视觉技术包括多个不同的研究方向,其中关注度较高的领域有目标检测、语义分割、运动和跟踪、视觉问答等。

目标检测是计算机视觉中非常重要的一个研究方向——通过输入的图片识别图片中的特定物体,并输出其所属类别及位置。根据不同检测对象,可以衍生出人脸检测、车辆检测等细分的检测算法。

4、文末送书

参与方式:文章三连并评论“卷不动了就歇会”参与抽奖,48小时后程序会自动从评论区抽取6位小伙伴送出技术图书1本(本/人)!

本次送出的书籍:

作者:[美] 道格·罗斯(Doug Rose)

译者:刘强

作者:[美] 保罗·戴特尔,[Paul,J.Deitel]

[美] 哈维·戴特尔(Harvey

译者:王恺、王刚、于名飞 等

作者:[美] 马克·E.芬纳(Mark E. Fenner)

译者:江红,余青松,余靖

作者:[美] 劳拉·格雷泽(Laura Graesser) 等

译者:许静、过辰楷、金骁、刘磊、朱静雯 等

作者:[美] 安德鲁·凯莱赫(Andrew Kelleher)

亚当·凯莱赫(Adam,K

译者:陈子墨、刘瀚文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/615851.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

苹果颠覆性新品取代iPhone,5万元新电脑告别 Intel

今日凌晨苹果正式举行了 WWDC23 Apple 全球开发者大会。 和往年相比 WWDC23 可以说是倍受关注,在召开前就有号称革命性产品问世的消息。 场面如此壮观,今年到底苹果又带来了什么引领时代的玩意? 革命性产品又是否能接力乔布斯时代&#xff…

day06——朴素贝叶斯算法

朴素贝叶斯算法 一、什么是朴素贝叶斯分类方法二、概率基础知识1,联合概率2,条件概率 三、贝叶斯公式1,公式2,拉普拉斯平滑系数 四、API五、实操案例:20类新闻分类代码 六、总结 一、什么是朴素贝叶斯分类方法 朴素贝…

漫谈大数据 - 如何设计业务埋点方案与数据采集应用

业务埋点和数据分析是在用户行为和业务数据上进行跟踪、收集和分析的关键方法,用于了解用户行为模式、改进产品和服务,并做出数据驱动的决策。 全文1.5万字,建议阅读时间35min。 目录 业务埋点 埋点的重要性 埋点的类型 全埋点 代码埋点…

springboot3自动装配机制原理(小白也看得懂)

springbootApplication注解 实现自动装配的核心就是EnableAutoConfiguration。(springboot就是通过此注解实现自动装配机制,主要作用就是让springboot去扫描默认的配置类,如果没有这个类的话,springboot只会默认扫描启动类下包中各个类的注解…

nuxt3项目在宝塔上使用pm2放到服务器

最近在将nuxt3项目扔到服务器上的时候遇到了一些问题,发现打包后的nuxt项目与正常的vue文件有些差别,缺失了index.html文件。 这边就记录下nuxt3项目是怎么放到服务器上的🤔 一、打包nuxt3项目 执行对应的打包命令 yarn build 二、找…

Electron详解(一):基本介绍

文章目录 一、electron简介二、发展历史三、electron优缺点四、electron和Qt的对比五、使用electron开发的实际案例六、electron 的原理 一、electron简介 Electron(官网:https://www.electronjs.org/zh/)是由Github开发,用HTML&…

17:00面试,还没10分钟就出来了,问的实在是太...

从外包出来,没想到死在另一家厂子 自从加入这家公司,每天都在加班,钱倒是给的不少,所以也就忍了。没想到8月一纸通知,所有人不许加班,薪资直降30%,顿时有吃不起饭的赶脚。 好在有个兄弟内推我去…

CVE-2022-30887

文章目录 CVE-2022-30887一、漏洞介绍二、渗透步骤1、打开网站2、登录网站3、shell4、文件上传5、查看flag CVE-2022-30887 一、漏洞介绍 多语言药房管理系统 (MPMS) 是用 PHP 和 MySQL 开发的, 该软件的主要目的是在药房和客户之间提供一套接口,客户是该软件的主要…

MLC Chat App上架苹果App Store可在本地运行语言模型;谷歌推出AI设计工具StyleDrop

🦉 AI新闻 🚀 开源项目MLC Chat App上架苹果App Store,可在本地运行语言模型 摘要:CMU助理陈天其教授表示,开源项目MLC LLM的独立聊天应用程序MLC Chat App已上架苹果App Store,允许将任何语言模型本地部…

3.用图神经网络进行图分类

在本教程中,我们将更深入地了解如何将图神经网络(GNN)应用于图分类任务。图分类是指在给定图的数据集的情况下,基于一些结构图的属性对整个图(与节点相反)进行分类的问题。在这里,我们希望嵌入整…

uniapp:HbuildeX项目实现jenkins自动化打包上传

前序: 基于HBuilderX创建的项目。 配置uniapp 指令式打包APP、微信小程序、H5。 ubuntu系统上的jenkins部署基础指令,发送给windows服务器上,windows服务器使用HBuilderX软件的cli.exe执行相关cli命令打包,然后jenkins再调用接口下载打包后的文件。 可实现多线程同时打…

社会主义核心价值观解码

今天随机刷题时,遇到了一个蛮有意思的题,浅浅记录一下,挺好玩的。 题目: [鹤城杯 2021]easy_crypto 难度:很小啦,差不多签到题 文件下载的内容如下: 最开始我以为是把每个词按社会主义那个顺序…

Java基础学习+面向对象

一,基础概念介绍 1.1Java跨平台原理(一次编译,处处运行) Java 源代码经过编译,生成字节码文件,交由 Java 虚拟机来执行,不同得系统有不同得JVM,借助JVM 实现跨平台。就比如说我们在 Windows 下…

Redis内存优化——内存淘汰及回收机制

文章目录 Redis内存优化——内存淘汰及回收机制内存淘汰策略LRU和LFULRU和Redis的近似LRU什么是LRURedis的近似LRU LFU如何选择 内存回收策略惰性删除定期删除 配置文件说明总结 系列文章目录 本文是系列文章,为了增强您的阅读体验,已将系列文章目录放入…

Yakit: 集成化单兵安全能力平台使用教程·MITM交互式劫持篇

Yakit: 集成化单兵安全能力平台使用教程MITM交互式劫持篇 1.免配置抓包2.拦截HTTPS的消息3.代理和浏览器设置4.内容规则:标记/替换流量5.过滤流量6.网站树视角1.免配置抓包 点击手工测试--MITM交互式劫持即可进入MITM劫持页面,点击免配置启动进入免配置启动设置界面(这类似…

ESP32-C2-12模组 使用乐鑫AT固件示例

ESP32C2 AT固件使用 ESP32 C2模组,如图1-1所示 图1-1 ESP32 C2模组 ESP32 C2开发板,如图1-2所示 图1-2 ESP32 C2开发 方案亮点 1、完整的 WiFi 子系统,符合 IEEE 802.11b/g/n 协议,具有 Station 模式、SoftAP 模式、SoftAP Stat…

vue3+uniapp开发小程序踩坑指南(持续更新)

小程序常见问题汇总: 1、TypeError: Cannot read property forceUpdate of undefined 原因:没有配置小程序AppID 2、define is not defined 报错一堆文件找不到,并且有define is not defined错误提示 原因:没有配置基础库或者基…

Linux安装Nginx并部署前端项目【内/外网-保姆级教程】

目录 1下载所需要的安装包 2安装步骤 2.1将下载的完整文件夹通过压缩包的形式,上传到你的路径下解压. 2.2 进入到gcc文件夹下,执行命令: 2.3进入到gcc-c文件夹下,执行命令: 2.4检查gcc、gcc-c是否安装成功 2.5执…

【深度学习】日常笔记

一开始感觉学习方向有点飘忽不定,后面查找资料和思考,发现其实图神经网络、异构图、推荐系统这三者的概念其实是相通,紧密联系的。推荐系统是指根据用户历史行为和偏好,为用户提供个性化的商品或服务推荐。而在推荐系统中&#xf…

公司新来个以前拿 20K 出来的,让我见识到了什么叫真正的测试天花板....

今天上班开早会就是新人见面仪式,听说来了个很厉害的大佬,年纪还不大,是上家公司离职过来的,薪资已经达到中高等水平,很多人都好奇不已,能拿到这个薪资应该人不简单,果然,自我介绍的…