本篇重新梳理了人工智能(AI)、机器学习(ML)、神经网络(NN)和深度学习(DL)之间存在一定的包含关系,以下是它们的关系及各自内容,以及人工智能领域中深度学习分支对比整理。
一.包含关系
人工智能是涵盖最广的领域,它包括了所有使机器能够模拟人类智能的技术。
机器学习则是人工智能的一个子集,专注于让机器通过数据学习,而无需明确编程。
神经网络是机器学习的一个子集,受到人脑结构的启发,
而深度学习则是神经网络的一个子集,使用多层网络处理复杂任务。
人工智能⊃机器学习⊃神经网络⊃深度学习
1.人工智能(AI)
人工智能是范围最广的概念,它旨在让机器模拟人类智能,涵盖机器学习等多种实现途径。
1.1 定义: 指的是使机器能够执行通常需要人类智能的任务,如视觉感知、语言理解、决策和问题解决。
1.2 应用: 聊天机器人、推荐系统、自动驾驶汽车等。
2.机器学习(ML)
机器学习是人工智能的一个重要分支,专注于让机器从数据中学习规律并用于预测和决策。
2.1 定义: 一个子集,使机器能够通过数据学习并做出决策,而无需明确编程。
2.2 类型: 监督学习、无监督学习、强化学习等。
2.3 应用: 邮件过滤、股票交易、医疗诊断等。
3.神经网络(NN)
神经网络是机器学习中的一种模型和算法架构,由大量神经元相互连接构成。
3.1 定义: 受人脑结构启发的机器学习模型,通过节点(神经元)处理信息。
3.2 类型: 卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)等。
3.3 应用: 图像识别、自然语言处理、游戏AI等。
4.深度学习(DL)
深度学习则是基于神经网络发展起来的机器学习领域的一个分支,强调使用深层神经网络进行学习。
4.1 定义: 使用多层神经网络处理复杂任务,如识别图像中的对象或理解自然语言。
4.2 特点: 自动特征提取、端到端学习等。
4.3 应用: 语音识别、机器翻译、医疗图像分析等。
二.各概念的具体内容
2.1 人工智能
2.1.1 研究内容
- 知识表示:旨在将人类知识以计算机可处理的形式进行表达,以便机器能够理解和运用这些知识。
- 推理与搜索:通过逻辑推理和搜索算法,使机器能够在给定的知识和条件下,推导出新的结论或找到解决问题的路径。
- 自然语言处理:致力于让机器能够理解、生成和处理人类语言,实现人机之间自然流畅的语言交互。
- 计算机视觉:研究如何让机器能够理解和解释图像、视频等视觉信息,如同人类视觉系统一样识别物体、场景等。
- 机器人学:融合机械工程、电子技术、计算机科学等多学科知识,设计和开发能够自主执行任务的机器人。
2.1.2 实现方法
- 符号主义:基于逻辑推理和符号表示,通过构建知识图谱和规则系统来实现智能。
- 连接主义:以神经网络为基础,通过神经元之间的连接和权重调整来学习和处理信息。
- 行为主义:强调智能体与环境的交互,通过试错学习和反馈机制来实现智能行为。
2.1.3 应用领域
广泛应用于智能交通(如自动驾驶、交通流量优化)、医疗诊断(辅助疾病诊断、药物研发)、金融风险预测(信用评估、市场趋势预测)等众多领域。
2.2 机器学习
2.2.1 学习类型
- 监督学习:利用带有标记(标签)的数据进行模型训练。例如回归分析,用于预测连续型数值,如房价预测;分类算法,用于将数据划分到不同类别,如垃圾邮件分类。
- 无监督学习:处理没有标记的数据,旨在发现数据中的内在结构和模式。像聚类分析,将数据点划分为不同的簇,使同一簇内的数据点具有相似性;降维算法,在保留数据主要特征的前提下,降低数据的维度,如主成分分析(PCA)。
- 强化学习:智能体在与环境的交互过程中,通过不断尝试不同的行动并根据环境反馈的奖励信号来学习最优策略。例如,机器人在复杂环境中的导航、游戏中的智能决策等。
2.2.2 其他关键内容
- 模型评估与选择:使用各种评估指标(如准确率、召回率、均方误差等)来衡量模型的性能,并从多个候选模型中选择最优的模型。
- 特征工程:对原始数据进行处理和转换,提取、选择和构建对模型学习有帮助的特征,以提高模型的性能和效果。
2.2.3 应用场景
常用于数据挖掘(从大量数据中发现有价值的信息和模式)、推荐系统(根据用户的历史行为和偏好,为用户推荐相关的产品或内容)等方面。
2.3 神经网络
2.3.1 核心组成
- 神经元模型:模拟生物神经元的信息处理方式,每个神经元接收多个输入信号,通过加权求和并经过激活函数处理后产生输出。
- 网络结构:
- 前馈神经网络:数据从输入层依次向前传递到隐藏层和输出层,各层之间单向连接,不存在反馈连接。
- 反馈神经网络:网络中存在反馈连接,使得神经元的输出可以反馈到输入,常用于处理动态系统和时间序列数据。
- 学习算法:误差反向传播算法(BP 算法)是神经网络中常用的学习算法,用于调整网络权重,使网络输出尽可能接近预期输出。
2.3.2 应用领域
应用于图像识别(如人脸识别、物体检测)、语音识别(语音转文字、语音指令识别)等领域。
2.4 深度学习
2.4.1 深度神经网络架构
- 卷积神经网络(CNN):擅长处理图像等网格数据,通过卷积层、池化层等结构自动提取数据的特征,在图像分类、目标检测等任务中表现出色。
- 循环神经网络(RNN)及变体 LSTM、GRU:适用于处理序列数据,能够捕捉序列中的时间依赖关系。RNN 的变体 LSTM(长短期记忆网络)和 GRU(门控循环单元)解决了传统 RNN 在处理长序列时的梯度消失或爆炸问题,在文本处理(如机器翻译、文本生成)、语音处理等领域广泛应用。
- 生成对抗网络(GAN):由生成器和判别器组成,通过两者的对抗训练,生成器能够生成新的数据样本,如生成逼真的图像、音频等,在图像生成、数据增强等方面有重要应用。
2.4.2 应用领域
应用于图像生成(如生成艺术作品、虚拟场景)、机器翻译(不同语言之间的文本翻译)、自动驾驶(环境感知、决策规划)等前沿领域。
三.人工智能领域中深度学习分支整理对比
1.深度学习分支整理
下表中整理出人工智能领域中深度学习分支的各个对比,除了注意力机制和强化学习中的深度神经网络,其余都属于深度学习分支下特定类型的神经网络.
序号 | 难易程度 | 名称 | 简写 | 适用范围 | 核心概念 | 应用 | 原理 | 特点 | 优势 | 局限性 |
1 | 基础 | 多层感知机(Multi-Layer Perceptron) | MLP | 简单的分类和回归问题 | 全连接层,通过线性组合和非线性激活函数进行计算 | 图像分类、房价预测等 | 基于多层神经元的计算和传播 | 简单直观,计算效率较高 | 结构简单,易于理解和实现 | 容易过拟合,对于复杂数据表达能力有限 |
2 | 中等 | 卷积神经网络(Convolutional Neural Network) | CNN | 图像识别、目标检测 | 卷积核,局部感受野,参数共享 | 图像识别、目标检测 | 通过卷积和池化提取特征 | 局部感知性,参数共享,多层次特征提取,平移不变性 | 对图像等具有空间结构的数据处理效果好,计算效率高 | 对于序列数据等非空间结构数据表现一般 |
3 | 中等 | 循环神经网络(Recurrent Neural Network) | RNN | 自然语言处理、语音识别 | 循环单元,记忆历史信息 | 自然语言处理、语音识别 | 根据历史信息进行预测 | 利用循环结构捕捉序列依赖 | 擅长处理序列数据 | 存在长期依赖问题,梯度消失或爆炸 |
4 | 中等 | 门控循环单元(Gate Recurrent Unit) | GRU | 与RNN类似的序列任务 | 更新门和重置门控制信息流动 | 与RNN类似的序列任务 | 优化了RNN的门控机制 | 计算效率较高,性能较好 | 比LSTM结构简单,一定程度解决长期依赖问题 | 对非常长的序列处理能力仍有限 |
5 | 较难 | 长短时记忆网络(Long Short-Term Memory) | LSTM | 长时间序列预测 | 输入门、遗忘门、输出门 | 长时间序列预测 | 通过复杂的门控机制控制信息 | 对长序列记忆能力强 | 有效解决长期依赖问题 | 参数较多,计算复杂度高 |
6 | 较难 | 变分自编码器(Variational Autoencoder) | VAE | 数据生成、压缩 | 变分推断,潜在变量建模 | 图像生成、特征提取 | 基于概率模型的生成和重构 | 能学习数据的潜在表示 | 生成新的数据,能进行数据压缩 | 生成质量可能不如其他生成模型 |
7 | 较难 | 生成对抗网络(Generative Adversarial Network) | GAN | 图像生成、数据增强 | 生成器与判别器的对抗训练 | 图像创作、提高数据质量 | 对抗博弈生成数据 | 生成效果逼真但不稳定 | 生成逼真的数据 | 训练不稳定,模式崩溃问题 |
8 | 较难 | 注意力机制(Attention Mechanism) | Attention | 自然语言处理、计算机视觉 | 根据重要性分配权重 | 机器翻译、图像分类 | 根据权重分配关注重点 | 提高模型的针对性和效率 | 聚焦关键信息,提升模型性能 | 计算开销可能较大 |
9 | 较难 | 图神经网络(Graph Neural Network) | GNN | 社交网络分析、化学分子结构 | 节点和边的特征学习,消息传递 | 节点分类、链路预测 | 基于图的信息传播和学习 | 适应图结构数据的处理 | 处理图结构数据 | 对大规模图数据计算复杂度高 |
10 | 高级 | 强化学习中的深度神经网络(Deep Neural Network in Reinforcement Learning) | RL-DNN | 游戏策略、机器人控制 | 策略网络,值函数估计 | 智能决策、优化控制 | 通过与环境交互学习策略 | 适应复杂的动态决策环境 | 能够在动态环境中学习最优策略 | 训练难度大,样本效率低 |
2.再进行细化分类
序号 | 类别 | 名称 | 简写 | 难易程度 | 适用范围 | 核心概念 | 应用 | 原理 | 特点 | 优势 | 局限性 | 案例 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 神经网络(深度学习基础模型) | 多层感知机(Multi - Layer Perceptron) | MLP | 较易理解和基础 | 简单数据的分类与回归任务,如手写数字识别的初步尝试 | 通过全连接层,将上一层所有神经元与下一层神经元相连,学习输入与输出间的非线性映射 | 简单的数据分类、回归,如预测产品销量 | 前向传播计算输出,反向传播计算误差并更新权重 | 结构简单,全连接方式直观 | 易于实现和训练,可处理非线性问题 | 参数众多易过拟合,难以处理复杂结构数据,对数据的特征工程要求较高,且计算量随输入维度增加而剧增 | 预测某地区房屋价格,根据房屋面积、房间数量等简单特征进行回归分析 |
2 | 神经网络(深度学习基础模型) | 卷积神经网络(Convolutional Neural Network) | CNN | 中等,需理解卷积运算 | 处理具有网格结构数据,如图像、音频、视频 | 利用卷积核在数据上滑动进行卷积操作,提取局部特征,池化层进行特征压缩 | 图像识别、目标检测、语义分割、语音识别 | 卷积层提取特征,池化层降低数据维度,全连接层完成分类或回归 | 局部连接、权重共享、池化降维 | 减少参数计算量,对平移、旋转等变换有不变性 | 难以捕捉全局特征,对非结构化数据处理能力弱,模型的可解释性较差 | 识别手写数字图像,对猫和狗的图片进行分类 |
3 | 神经网络(深度学习基础模型) | 循环神经网络(Recurrent Neural Network) | RNN | 中等,需理解时间序列处理 | 序列数据处理,如自然语言文本、时间序列预测 | 通过隐藏层的反馈连接,让网络记住之前时间步的信息,处理序列依赖关系 | 自然语言处理(如文本分类、情感分析)、时间序列预测(如股价预测) | 在每个时间步接收输入和上一时刻隐藏状态,更新隐藏状态并输出 | 能处理序列数据,理论上可捕捉长时依赖 | 适用于动态序列建模 | 梯度消失或爆炸问题,难以学习长期依赖,训练效率较低 | 预测股票价格走势,根据前几天的股价预测未来股价 |
4 | 神经网络(深度学习基础模型) | 门控循环单元(Gate Recurrent Unit) | GRU | 较难,涉及门控机制理解 | 长序列数据处理,如自然语言处理、语音识别 | 引入重置门和更新门,控制信息的流入与遗忘,改进 RNN 对长序列处理能力 | 自然语言处理中的机器翻译、语音识别中的语音转文字 | 根据重置门和更新门计算候选隐藏状态,更新隐藏状态 | 计算量小,训练速度快 | 解决 RNN 梯度问题,更好捕捉长时依赖 | 相比 LSTM,复杂任务表现稍弱,对复杂时间序列中的长期依赖捕捉能力仍有限 | 在机器翻译任务中,将一种语言的句子翻译成另一种语言 |
5 | 神经网络(深度学习基础模型) | 长短时记忆网络(Long Short - Term Memory) | LSTM | 较难,门控机制更复杂 | 长序列数据处理,如自然语言处理、时间序列预测 | 输入门、遗忘门和输出门协同工作,选择性记忆和遗忘信息,解决长时依赖 | 自然语言处理(如文本生成、命名实体识别)、时间序列预测(如电力负荷预测) | 输入门控制新信息流入,遗忘门决定保留或丢弃旧信息,输出门确定输出值 | 门控机制强大,能有效处理长序列 | 解决长时依赖问题,在复杂序列任务中表现出色 | 结构复杂,训练时间长,计算量大,内存占用较多 | 预测电力系统的负荷需求,根据历史电力消耗数据进行预测 |
6 | 神经网络(深度学习生成模型) | 变分自编码器(Variational Autoencoder) | VAE | 较难,涉及概率与生成模型 | 数据生成、降维、异常检测等,如图像生成、数据压缩 | 基于变分推断,将输入编码到潜在空间,再从潜在空间解码生成新数据 | 图像生成、数据降维、异常检测 | 编码器将输入映射到潜在空间分布,解码器从潜在空间采样生成数据 | 生成数据具有连续性和多样性 | 可对潜在空间操作,生成新数据样本 | 生成样本细节可能不足,生成质量评估难,对潜在空间的分布假设较为敏感 | 生成新的人脸图像,通过对大量人脸图像学习后生成类似但不同的人脸 |
7 | 神经网络(深度学习生成模型) | 生成对抗网络(Generative Adversarial Network) | GAN | 较难,涉及对抗博弈思想 | 数据生成、图像编辑、无监督学习等,如生成逼真图像、风格迁移 | 生成器和判别器相互对抗,生成器生成数据,判别器判断数据真伪 | 图像生成、图像编辑、数据增强、半监督学习 | 生成器尽量生成逼真数据欺骗判别器,判别器尽量识别假数据,两者在对抗中提升 | 可生成逼真数据,在无监督学习表现出色 | 训练不稳定,易模式坍塌,难以评估生成质量,训练过程需要精心调参 | 生成逼真的风景图片,或者将一种绘画风格迁移到另一张图片上 | |
8 | 深度学习架构改进技术 | 基于注意力机制的模型(Attention Mechanism) | - | 较难,需理解注意力机制原理 | 多种任务,尤其是处理长序列数据,如自然语言处理、图像描述生成 | 为不同输入部分动态分配重要性权重,聚焦关键信息 | 机器翻译、图像字幕生成、语音识别 | 计算输入各部分的注意力分数,据此调整信息传递 | 能够自适应关注输入的不同部分 | 提升对关键信息的捕捉能力,在复杂任务中表现优异 | 计算量增加,注意力机制设计不当可能影响效果,对模型的超参数设置较为敏感 | 在机器翻译中,使模型更关注源语言句子中与目标翻译相关的部分 |
9 | 深度学习架构改进技术 | 图神经网络(Graph Neural Network) | GNN | 较难,涉及图结构数据处理 | 处理具有图结构的数据,如社交网络分析、分子结构预测、知识图谱推理 | 对图中的节点和边进行特征学习,考虑节点间的连接关系 | 社交网络分析(节点分类、链接预测)、化学分子性质预测、推荐系统 | 通过聚合邻居节点信息更新节点特征 | 直接处理图结构数据,捕捉数据的拓扑结构信息 | 能够有效利用数据的结构信息,在图数据任务中优势明显 | 图数据的复杂性导致模型设计和训练难度较大,扩展性较差,处理大规模图数据时效率较低 | 分析社交网络中用户之间的关系,预测用户是否会成为好友 |
10 | 深度学习与强化学习结合 | 深度强化学习模型(Deep Neural Network in Reinforcement Learning) | - | 难,涉及强化学习原理和深度神经网络应用 | 机器人控制、游戏、自动驾驶等复杂决策任务 | 结合深度学习的感知能力和强化学习的决策能力,通过与环境交互学习最优策略 | 机器人导航、游戏智能体训练、自动驾驶决策 | 智能体在环境中执行动作,根据奖励反馈调整策略,利用深度神经网络近似价值函数或策略函数 | 可以处理高维复杂状态空间和动作空间 | 能够在复杂环境中学习到高效的决策策略 | 训练过程不稳定,需要大量的环境交互数据,收敛困难,对环境建模要求高,容易陷入局部最优解 | 训练智能机器人在复杂环境中自主导航,或者训练游戏角色在游戏中取得高分 |
11 | 深度学习基础模型拓展 | 胶囊网络(Capsule Network) | - | 较难,需理解新的神经元结构 | 图像识别、姿态估计等任务,尤其对视角变化、遮挡等情况敏感的场景 | 使用胶囊(一组神经元)来表示实体的各种属性,通过动态路由机制传递信息 | 图像分类、目标检测、三维物体重建 | 胶囊之间通过迭代的动态路由算法,将低层次胶囊的输出传递到高层次胶囊,以更好地捕捉数据中的空间层次关系 | 能够处理数据的空间层次结构,对变换和遮挡更鲁棒 | 训练难度较大,动态路由算法计算成本较高,模型的收敛速度较慢,对硬件要求较高 | 在识别不同角度拍摄的物体图像时,胶囊网络能更好地处理视角变化问题 | |
12 | 深度学习基础模型拓展 | 自注意力网络(Self - Attention Network) | - | 较难,需深入理解注意力机制 | 多种自然语言处理任务,如文本摘要、情感分析,以及图像、音频处理等 | 在序列数据中,每个位置的元素通过计算与其他所有位置元素的关联程度来获取上下文信息 | 文本生成、机器翻译、图像生成 | 通过计算输入序列中各元素之间的注意力分数,得到加权表示,从而捕捉长距离依赖关系 | 可以直接捕捉序列中长距离依赖关系,不依赖于循环或卷积结构 | 计算复杂度较高,对于长序列计算量剧增,在处理短序列时优势不明显 | 在文本生成任务中,模型能更好地捕捉文本前后的语义关联 | |
13 | 深度学习生成模型拓展 | 流模型(Flow - based Model) | - | 难,涉及复杂的数学变换 | 数据生成、密度估计等任务,如生成高分辨率图像、音频合成 | 通过一系列可逆变换将简单分布(如高斯分布)逐步转换为与数据分布匹配的复杂分布 | 图像生成、音频生成、异常检测 | 构建可逆变换的神经网络,通过变换的组合将噪声数据映射到与真实数据相似的分布 | 精确的密度估计,生成样本质量较高,可进行高效的采样和反演 | 设计复杂的可逆变换较为困难,计算成本较高,对数据的分布假设较为严格 | 生成高质量的音乐片段,通过对大量音乐数据学习后生成新的音乐 | |
14 | 深度学习与其他领域结合 | 对抗自编码器(Adversarial Autoencoder) | AAE | 较难,结合生成对抗与自编码器概念 | 数据生成、半监督学习、无监督特征学习等 | 结合自编码器的编码解码结构和生成对抗网络的对抗训练机制,使编码器生成的特征符合某种先验分布 | 图像生成、数据降维、半监督分类 | 自编码器将输入编码为特征,生成器根据特征生成数据,判别器区分生成数据与真实数据,同时约束编码器使特征符合先验 | 能够学习到具有语义信息的特征表示,在半监督学习中表现良好 | 训练过程复杂,需要平衡自编码器和对抗网络的训练,对超参数敏感,模型稳定性较差 | 在半监督图像分类任务中,利用少量标记数据和大量未标记数据进行分类 | |
15 | 深度学习与其他领域结合 | 深度信念网络(Deep Belief Network) | DBN | 较难,涉及逐层训练和无监督预训练 | 图像识别、语音识别、协同过滤等任务 | 由多个受限玻尔兹曼机(RBM)堆叠而成,通过无监督预训练和有监督微调的方式进行学习 | 手写数字识别、推荐系统 | 首先利用无监督学习对每一层 RBM 进行预训练,然后使用有监督学习对整个网络进行微调 | 能够有效处理高维数据,在无监督学习和有监督学习之间架起桥梁 | 训练时间长,模型参数较多,调参复杂,对硬件资源要求高 | 在推荐系统中,根据用户的历史行为数据为用户推荐可能感兴趣的商品 |
由于篇幅较长且整理过程较为繁琐,我计划逐步整理并发布后续内容。我深信,科技应当服务于大众,我希望可以为促进知识的共享与学习,贡献自己绵薄之力,根据我的整理节省后来人的时间。此外补充一下,开源才是未来趋势和大方向,还有一件事 各位新年快乐!2025年事事顺心,万事如意 ,迎接全新的人生!如果对神经网络感兴趣,可以看之前相关博客
深度学习笔记1:自动微分与神经网络实现(附代码)_神经网络自动微分-CSDN博客
整理不易,诚望各位看官点赞 收藏 评论 予以支持,这将成为我持续更新的动力源泉。若您在阅览时存有异议或建议,敬请留言指正批评,让我们携手共同学习,共同进取,吾辈自当相互勉励!