目录
1. 神经网络必备基础知识点
2. 神经网络前向传播与反向传播
3. 网络模型整体架构分析实例
4. 神经网络建模效果分析
5. 激活函数与过拟合问题解决
6. 卷积神经网络核心知识点
7. 卷积建模流程与各参数作用分析
8. 池化层的作用与效果
9. 经典卷积神经网络架构分析
10. 感受野的作用与效果解读
11. 递归神经网络模型原理分析
12. RNN系列网络结构优缺点分析
13. 词向量模型与LSTM应用实例
总结
1. 神经网络必备基础知识点
-
神经元模型
-
模拟生物神经元,输入信号加权求和后通过激活函数输出。
-
数学表达:
,
(如Sigmoid、ReLU)。
-
-
网络结构
-
输入层:接收原始数据(如像素值、文本向量)。
-
隐藏层:负责特征提取和变换(层数越多,非线性能力越强)。
-
输出层:生成最终结果(分类概率、回归值等)。
-
-
权重与偏置
-
权重
决定特征重要性,偏置
调整输出阈值。
-
-
损失函数
-
衡量预测值与真实值的差距(如交叉熵损失、均方误差)。
-
2. 神经网络前向传播与反向传播
-
前向传播
-
输入数据逐层计算至输出:
。
-
-
反向传播
-
链式法则:从输出层到输入层逐层计算梯度。
-
梯度计算:通过损失函数对权重求导
-
参数更新:使用优化器(如SGD、Adam)调整权重:
-
3. 网络模型整体架构分析实例
-
以LeNet-5为例
-
输入层:32×32灰度图像。
-
卷积层:提取边缘、纹理等低级特征。
-
池化层:降低空间维度(如最大池化)。
-
全连接层:整合全局信息进行分类。
-
输出层:Softmax生成类别概率。
-
-
设计原则
-
特征抽象层级递进(低级→高级)。
-
参数量与计算效率的平衡。
-
4. 神经网络建模效果分析
-
评价指标
-
分类任务:准确率、精确率、召回率、F1值。
-
回归任务:均方误差(MSE)、平均绝对误差(MAE)。
-
-
训练状态诊断
-
欠拟合:训练集和测试集表现均差(模型简单或训练不足)。
-
过拟合:训练集准确率高,测试集差(模型复杂或数据噪声多)。
-
-
解决方案
-
欠拟合:增加网络深度、使用更复杂模型。
-
过拟合:正则化(L1/L2)、数据增强、早停法。
-
5. 激活函数与过拟合问题解决
-
激活函数
-
Sigmoid:输出0~1,易导致梯度消失。
-
ReLU:缓解梯度消失,计算高效(
)。
-
Softmax:多分类输出归一化概率。
-
-
过拟合解决策略
-
Dropout:随机屏蔽神经元,强制网络学习冗余特征。
-
正则化:L1(稀疏权重)、L2(限制权重幅度)。
-
数据增强:旋转、裁剪图像,添加噪声等。
-
6. 卷积神经网络核心知识点
-
卷积层
-
滤波器(Kernel):滑动窗口提取局部特征(如边缘检测)。
-
参数共享:同一滤波器在不同位置复用,减少参数量。
-
输出尺寸计算:
(N输入尺寸,K滤波器尺寸,P填充,S步长)。
-
-
通道(Channel)
-
输入通道数(如RGB图像的3通道)。
-
输出通道数对应不同滤波器的数量。
-
7. 卷积建模流程与各参数作用分析
-
建模流程
-
输入数据预处理(归一化、标准化)。
-
交替堆叠卷积层和池化层。
-
全连接层整合特征,输出结果。
-
-
参数作用
-
滤波器尺寸:3×3(常用)、5×5(捕捉更大区域)。
-
步长(Stride):控制滑动步幅(步长越大,输出越小)。
-
填充(Padding):保持输出尺寸不变(如Same Padding)。
-
8. 池化层的作用与效果
-
核心作用
-
降维减少计算量。
-
增强平移不变性(轻微位置变化不影响输出)。
-
-
池化类型
-
最大池化:保留局部最显著特征。
-
平均池化:平滑特征响应(适用于背景区域)。
-
-
输出尺寸:与步长和池化窗口大小相关(如2×2窗口+步长2,尺寸减半)。
9. 经典卷积神经网络架构分析
-
AlexNet
-
首个深度CNN,使用ReLU和Dropout。
-
多GPU并行训练,局部响应归一化(LRN)。
-
-
VGGNet
-
小尺寸滤波器(3×3)堆叠,加深网络。
-
-
ResNet
-
残差连接(Skip Connection)解决梯度消失,允许千层网络训练。
-
10. 感受野的作用与效果解读
-
定义:输出特征图上每个点能“看到”输入图像的区域大小。
-
计算方式
-
逐层累加:
。
-
-
作用
-
深层网络感受野扩大,可捕捉全局语义信息(如物体整体形状)。
-
11. 递归神经网络模型原理分析
-
核心思想
-
处理序列数据(如时间序列、文本),引入时间维度上的状态传递。
-
-
数学表达
-
隐藏状态更新:
。
-
-
局限
-
长序列依赖问题(梯度消失/爆炸)。
-
12. RNN系列网络结构优缺点分析
-
标准RNN
-
优点:简单,适合短序列建模。
-
缺点:无法处理长程依赖。
-
-
LSTM
-
门控机制(输入门、遗忘门、输出门)控制信息流。
-
解决梯度消失,适合长序列(如文本生成)。
-
-
GRU
-
简化版LSTM(合并遗忘门和输入门),计算效率更高。
-
13. 词向量模型与LSTM应用实例
-
词向量模型(Word2Vec)
-
Skip-Gram:通过中心词预测上下文。
-
CBOW:通过上下文预测中心词。
-
-
LSTM应用实例(文本分类)
-
输入层:词向量序列(如300维)。
-
LSTM层:捕捉上下文依赖。
-
全连接层:输出类别概率。
-
优化:使用交叉熵损失和Adam优化器。
-
总结
-
神经网络基础:神经元、前向/反向传播、损失函数。
-
CNN核心:卷积、池化、经典架构(ResNet等)。
-
RNN系列:LSTM解决长序列依赖,词向量建模文本语义。
-
实践技巧:激活函数选择、过拟合解决方法、参数调优。