读改变未来的九大算法笔记06_图形识别

news2025/1/10 23:54:35

 

1. 人工智能研究人员在过去几十年中学到的最重要的教训之一

1.1. 看似智能的行为有可能从看似随机的系统中浮现出来

1.2. 如果我们有能力进入人脑,研究神经元之间连接的强度,其中绝大部分连接都会表现得很随机

1.3. 当作为集合体行动时,这些连接强度的松散集合产生了人的智能行为

2. 图形识别是人类具有天然优势的一个领域

3. 图形识别是人工智能(AI)的一部分

3.1. 图形识别处理高度变化的输入数据,如音频、照片和视频

3.1.1. 面部识别

3.1.2. 物体识别

3.1.3. 语音识别

3.1.4. 笔迹识别

3.2. 好的图形识别系统需要巨大的人力,但这是一次性投入,并能产生长期回报

3.3. 检验一种图形识别算法在哪些情况下会失效总是很吸引人

3.4. AI处理的任务更多元

3.4.1. 计算机国际象棋

3.4.2. 在线聊天机器人

3.4.3. 人形机器人

3.5. 任务的逐渐转变——从明显是直觉性的任务到显然是机械化的任务——还在继续

3.6. 普遍意义上以及图形识别中特殊意义上的人工智能正慢慢扩展它们的边界,提升它们的效能

3.7. 比如

3.7.1. 一份复杂的检验结果中帮助诊断病人疾病

3.7.2. 在自动收费亭识别汽车牌照

3.7.3. 向某个计算机用户展示什么广告

4. 最近邻分类器

4.1. 标准做法是将图形识别看作分类问题

4.2. 让计算机自动“学习”如何分类样本

4.2.1. 基本策略是给计算机标记大量数据(Labeled Data):已经被分类的样本

4.2.2. 每个样本都带有一个标签(也就是它的类),计算机能运用多种分析把戏提取每个类的特性

4.2.3. 之后再向计算机提供一个未标记的样本,通过选择和未标记样本特性最接近的样本,计算机能推测未标记样本的类

4.3. 点与点之间的地理距离,就能得出相距最近的点

4.4. 示例

4.4.1. 根据一个人的家庭住址,预测那个人会向哪个政治党派捐赠吗

4.4.2.

 

4.4.2.1. 右上角的?选择D,左下角的?选择R

4.4.2.2. 每个问号都被归为其最相邻对象所属的类

4.5. K个最近邻

4.5.1. K Nearest-neighbors

4.5.2. K代表3或5这样的小数字

4.5.3.

 

4.5.3.1. 左上角的?

4.5.3.1.1. 当只使用单个最近邻时,问号被归为“R”

4.5.3.1.2. 当使用三个最近邻时,问号被归为“D”

4.6. 手写数字

4.6.1. 人类也没有这种内置知识

4.6.1.1. 通过结合其他人的详尽教授以及观看我们用来教授自己的例子,我们学会了如何去识别数字及其他手写符号

4.6.2. 计算机并没有内建手写数字是什么样的知识

4.6.2.1. 这两种策略(详尽教授和从例子中学习)也被用于计算机图形识别

4.6.3. 计算两个不同手写数字示例之间的“距离”

4.6.3.1. 衡量数字图像之间的区别度,而非它们之间的地理距离

4.6.4. 区别度以百分比形式衡量

4.6.4.1. 区别度只有1%的图像是非常相近的邻

4.6.4.2. 区别度在99%的图像则相差很远

4.6.5.

 

4.6.5.1. 在每一行,都要用第一张图减去第二张图,并得出右边的新图像,新图像中突出了这两张图中的区别

4.6.5.2. 区分度图像中突出部分所占的百分比,就能被视为原始图像之间的“距离”

4.6.5.3. 使用这种“最近邻”距离方法的系统效果相当好,精确度接近97%

4.6.6. 运用最先进的距离衡量法,最近邻分类器在手写数字上的精确度能超过99.5%

4.6.6.1. 这一精确度能和复杂得多的图形识别系统相比

4.6.6.2. 支持向量机(Support Vector Machine)

4.6.6.3. 回旋神经网络(Convolutional Neural Network)

4.7. 最近邻分类器的特殊属性:它们无须任何详尽的学习阶段

4.7.1. 直接使用最近邻把戏跳到了分类阶段

4.8. 在学习阶段无须费力

4.8.1. 但分类阶段要求我们将需要分类的每个东西和所有训练示例进行比对

5. 决策树

5.1. 基本上就是一个提前计划的20个问题游戏

5.1.1. 从“决策树”顶部开始,按照问题的答案一路往下即可

5.1.2. 当你到达“决策树”底部的一个框时,你也就得到了最终结果

5.2. 示例:网络垃圾

5.2.1.

 

5.2.2. 网络垃圾制造者喜欢在页面中加入大量流行词以提升他们网页的排名,因此流行词占比较小,也预示该网页是垃圾的概率较低

5.2.3. “训练”页面被真人分为“垃圾”或“非垃圾”

5.2.4. 整棵“决策树”是由计算机程序基于约1.7万个网页上的训练数据自动生成的

5.3. 如果你有足够多的训练数据,系统可能会向一棵能进行精确分类的“决策树”学习

5.4. “决策树”分类器学习阶段的任务量非常庞大

5.4.1. 计算机测试大量可能出现的第一个问题,寻找一个能得出最佳可能信息的问题

5.4.2. 计算机将训练样本分为两组,这取决于样本对第一个问题的答案,并产生第二个对这两个组都是最佳的可能问题

5.4.3. 计算机一直用这种方法往“决策树”底部前进,永远基于达到“决策树”某一点的训练示例集合来决定最佳问题

5.4.4. 如果示例集合在某一点变得“纯净”,也就是说,集合中只包含“垃圾”页面或“非垃圾”页面,计算机就能停止生成新问题,输出对应剩余页面的答案

5.5. 学习过程可以很复杂,但它是全自动的,而且你只需要做一次

6. 神经网络

6.1. 人工神经网络领域(Artificial Neural Networks),简称“神经网络”

6.2. 其学习阶段不仅重要,而且直接受到人类和其他动物从环境中学习的方法的启发

6.3. 英国科学家阿兰·图灵(Alan Turing)

6.3.1. 1950年发表的经典论文《计算机器与智能》(Computing Machinery and Intelligence)以其对计算机是否能伪装成人类的哲学探讨而闻名于世

6.4. 当给予相同的输入时,“决策树”和神经网络产生了相同的结果

6.5. 示例:带伞问题

6.5.1.

 

6.5.2. 带伞网络中的输入和输出信号被限制在0和1,不能携带任何中间值

6.5.3. 神经元在没有用任何方法替换输入的情况下将输入相加

6.6. 示例:判断人脸上是否带太阳镜

6.6.1.

 

6.6.2. 增强措施1:信号只能携带0和1之间的任意值

6.6.2.1. 新网络中的信号值可以是0.002 3或0.755

6.6.2.2. 一个全白的像素会发送值1

6.6.2.3. 一个全黑的像素会发送值0

6.6.2.4. 不同灰度会对应地产生0~1的值

6.6.3. 增强措施 2:输入总和,通过加权求和计算

6.6.3.1. 神经网络考虑了每个连接强度不同的情况

6.6.3.2. 连接的强度由一个数字代表,这个数字被称为该连接的权重

6.6.3.3. 当一个神经元计算其输入的总和时,每个输入信号在被加进总和之前,都会和其连接的权重相乘

6.6.4. 增强措施3:阈值的作用被软化

6.6.4.1. 当输入总和远低于阈值时,输出会接近于0

6.6.4.1.1. 输出值接近0,则强烈暗示了不存在太阳镜

6.6.4.1.2. 低于0.5的输出结果被视为“没有太阳镜”

6.6.4.2. 当输入总和远高于阈值时,输出接近于1

6.6.4.2.1. 输出值接近1强烈暗示了存在太阳镜

6.6.4.2.2. 超过0.5的输出结果被视为“有太阳镜”

6.6.4.3. 当输入总和接近阈值时,会产生一个接近0.5的中间输出

6.6.5. 可以将权重和阈值想象成网络中的小刻度盘,每个刻度盘都能像电灯开关中的调光器一样调上调下

6.6.6. 最开始,这些刻度盘的值都是随机值

6.6.7. 在多次运行完所有训练样本后,网络的效能基本上会达到很高的水平,而学习阶段也以配置当时的刻度盘而结束

6.6.7.1. 多变量微积分(Multivariable Calculus)

6.6.7.2. 随机梯度下降(Stochastic Gradient Descent)

6.6.7.2.1. 用于训练神经网络的多种公认方法之一

6.6.8. 神经网络的学习阶段相当耗费精力,这涉及对所有权重和阈值的反复调整,直到网络在训练样本上运作良好

6.6.9. 所有这些都能被计算机自动完成,而结果就是一个能简单高效地给新样本分类的网络

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/621863.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

javaScript蓝桥杯-----全球新冠疫情数据统计

目录 一、介绍二、准备三、⽬标四、代码五、完成 一、介绍 新冠疫情席卷全球,在此期间有很多免费的 API 和⽹站为⼈们提供了各个国家疫情数据的查询功能,这些免费公开的数据体现出了互联⽹作为信息媒介的优越性,帮助全球⼈⺠更好的了解⼀线疫…

电路模型和电路定律(3)——“电路分析”

小雅兰期末加油冲冲冲!!! 复习之前的内容: 这样的连接方式是不可以的: 两个电压源,电压值不相同,是不能并联的 两个电流源,电流值不相同,是不能串联的 电流源也不能开…

浅谈Zuul、Gateway

一、Zuul Zuul是通过Servlet来实现的,Zuul通过自定义的ZuulServlet(类似于Spring MVC的DispatcherServlet)来对请求进行控制(一系列过滤器处理Http请求)。 所有的Request都要经过ZuulServlet的处理,三个核心的方法preRoute(),rou…

时钟频率的配置-DG32

时钟频率的配置-DG32 HXTAL:高速外部时钟,4到32MHz的外部振荡器,可为系统提供精确的主时钟。带有特定频率的晶体必须靠近两个HXTAL的引脚。和晶体连接的外部电阻和电容必须根据所选择的振荡器来调整; LXTAL:低速外部…

chatgpt赋能python:Python开发桌面应用全面介绍

Python开发桌面应用全面介绍 Python是一种非常万能的编程语言,也逐步发展成为一种适用于开发各种桌面应用程序的语言。Python开发桌面应用的优点是它可以快速开发,易于阅读和使用,同时具有很高的可扩展性和可维护性,因此越来越多…

chatgpt赋能python:Python开立方:简单快捷的计算方法

Python开立方:简单快捷的计算方法 如果你是一位程序员或者是一个正在学习编程的初学者,那么你一定会用到Python这个编程语言。Python作为一门多用途的编程语言,它有着简单易学、高效快捷、优雅简洁等优点。同时,在数据分析、人工…

Keras-3-实例2-多分类问题

1. 多分类问题: 1.1 路透社数据集加载 路透社数据集由路透社在1986年发布,包含46个不同的主题:某些主题样本较多,某些较少,但是训练集中每个主题都至少含有10个样本。 from keras.datasets import reuters(train_da…

ViewOverlay-加蒙层真的一种实现方式

一、ViewOverlay能实现什么? 在Android中,ViewOverlay是一个特殊的视图层,可以在一个视图的上方添加和管理附加的视图层,而不会干扰原始视图的布局和交互。它提供了一种方便的方式来在运行时添加、移除或修改视图层,而…

chatgpt赋能python:Python嵌入SEO

Python嵌入SEO Python是一种高级编程语言,由于其简单易学和广泛应用的特点,已经成为了许多工程师的首选语言。随着互联网发展的趋势,现代的SEO已经不再是简单的关键词填充和链接堆积,而是需要更复杂的优化方式,这时候…

Sentinel在k8s部署

一、Sentinel Dashboard在k8s部署 官方jar包下载 由于sentinel dashboard官方没有提供镜像下载,需从sentinel官方下载sentinel dashboard的jar包,这里选择1.8.0进行下载。注意与springboot版本的兼容性。 打镜像并上传自己镜像仓库 在自己项目中添加…

mac(M1)芯片安装Stable-diffusion-webui

背景:听同事说这个都是在GPU上跑的,cpu跑这个比较费劲。我本地mac跑这个,也是为了调试一些相关的插件和api。为了开发方便点。当然确实提吃内存的。 目录 一、Stable-diffusion-webui 项目地址和官方安装方式 二、自己的安装方式 2.1、更…

自定义注解,基于redis实现分布式锁

一、如何实现自定义注解 1.1、注解的基础知识 实现自定义注解其实很简单,格式基本都差不多。也就参数可能变一变。 Retention:取值决定了注解在什么时候生效,一般都是取运行时,也就是RetentionPolicy.RUNTIME。 Target&#xff…

Unreal5 第三人称射击游戏 射击功能实现2

上一篇我们实现了角色射击相关的动画以及切换逻辑,并将武器相关的模型添加到角色身上。 这一篇开始制作武器相关的功能。 制作子弹父类 首先创建一个actor类,命名为BP_Bullet,这个作为子弹的通用父类,在里面创建子弹通用的功能实…

测试相关知识

测试基础知识 1. 测试基本理念2. 软件测试的分类2.1 程序是否运行2.2 测试时间段划分2.3 是否涉及实现2.4 其它测试2.5 当前流程的测试概念 3. 测试设计方法4. 参考书籍 1. 测试基本理念 软件测试的定义:软件测试是使用人工或自动的手段来运行或测定某个软件系统的…

chatgpt赋能python:Python年龄换算:如何根据Python版本算出“年龄”?

Python年龄换算:如何根据Python版本算出“年龄”? Python是一种高级编程语言,享有强大、易读、易用和可扩展性等各种优点。它是许多开发者使用的首选语言,尤其在数据科学和机器学习领域中备受推崇。 但是,Python几乎…

网络安全工具合集

首先,恭喜你发现了宝藏。 本文章集成了全网优秀的开源攻防武器项目,包含: 信息收集工具(自动化利用工具、资产发现工具、目录扫描工具、子域名收集工具、指纹识别工具、端口扫描工具、各种插件....etc...) 漏洞利用…

轮廓检测及功能

目录 一、实验介绍二、实验步骤三、实验任务任务一:轮廓特征练习一: 找到每个轮廓的方向任务二:边界矩形练习二: 围绕轮廓裁剪图像 一、实验介绍 1. 实验内容 本实验将学习轮廓检测及功能。 2. 实验要点 生成二进制图像来查找轮廓找到并画出轮廓轮廓…

面试题--12

1.MySQL 的内连接、左连接、右连接有什么区别? 2.MySQL 索引是怎么实现的? 3.索引的优点和缺点—查询频率高的字段 4.B树的特点和作用----必须先看 下面的网址 5.什么是聚集索引和非聚集索引 6.索引的分类 7.什么是最左前缀法则以及如何设计最左法则 8.怎…

图论基础和表示

一、概念及其介绍 图论(Graph Theory)是离散数学的一个分支,是一门研究图(Graph)的学问。 图是用来对对象之间的成对关系建模的数学结构,由"节点"或"顶点"(Vertex)以及连接这些顶点的"边"(Edge&a…

chatgpt赋能python:Python开源免费——为什么它是SEO世界的最佳选择

Python开源免费——为什么它是SEO世界的最佳选择 介绍 Python是一种流行的程序设计语言,拥有众多的开源库和响应式社区。它广泛应用于机器学习、数据科学、Web开发、系统自动化等领域。Python不仅易于学习和使用,而且完全免费并且开源,使得…