本文将从LSTM的本质、LSTM的原理、LSTM的应用 三个方面,带您一文搞懂长短期记忆网络Long Short Term Memory | LSTM。
RNN 面临问题:RNN(递归神经网络)在处理长序列时面临的主要问题:短时记忆和梯度消失/梯度爆炸。
梯度更新规则
-
短时记忆
-
问题描述:RNN在处理长序列时,由于信息的传递是通过隐藏状态进行的,随着时间的推移,较早时间步的信息可能会在传递到后面的时间步时逐渐消失或被覆盖。
-
影响:这导致RNN难以捕捉和利用序列中的长期依赖关系,从而限制了其在处理复杂任务时的性能。
-
梯度消失/梯度爆炸
-
问题描述:在RNN的反向传播过程中,梯度会随着时间步的推移而逐渐消失(变得非常小)或爆炸(变得非常大)。
-
影响:梯度消失使得RNN在训练时难以学习到长期依赖关系,因为较早时间步的梯度信息在反向传播到初始层时几乎为零。梯度爆炸则可能导致训练过程不稳定,权重更新过大,甚至导致数值溢出。
LSTM解决问题: 大脑和LSTM在处理信息时都选择性地保留重要信息,忽略不相关细节,并据此进行后续处理。这种机制使它们能够高效地处理和输出关键信息,解决了RNN(递归神经网络)在处理长序列时面临的问题。
大脑记忆机制
-
大脑记忆机制:当浏览评论时,大脑倾向于记住重要的关键词。无关紧要的词汇和内容容易被忽略。回忆时,大脑提取并表达主要观点,忽略细节。
-
LSTM门控机制:LSTM通过输入门、遗忘门和输出门选择性地保留或忘记信息,使用保留的相关信息来进行预测,类似于大脑提取并表达主要观点。
RNN 工作原理:第一个词被转换成了机器可读的向量,然后 RNN 逐个处理向量序列。
逐一处理矢量序列
-
隐藏状态的传递
-
过程描述:在处理序列数据时,RNN将前一时间步的隐藏状态传递给下一个时间步。
-
作用:隐藏状态充当了神经网络的“记忆”,它包含了网络之前所见过的数据的相关信息。
-
重要性:这种传递机制使得RNN能够捕捉序列中的时序依赖关系。
将隐藏状态传递给下一个时间步
-
隐藏状态的计算
-
细胞结构:RNN的一个细胞接收当前时间步的输入和前一时间步的隐藏状态。
-
组合方式:当前输入和先前隐藏状态被组合成一个向量,这个向量融合了当前和先前的信息。
-
激活函数:组合后的向量经过一个tanh激活函数的处理,输出新的隐藏状态。这个新的隐藏状态既包含了当前输入的信息,也包含了之前所有输入的历史信息。
tanh激活函数(区间-1~1)
- 输出:新的隐藏状态被输出,并被传递给下一个时间步,继续参与序列的处理过程。
RNN的细胞结构和运算
LSTM工作原理:
LSTM的细胞结构和运算
-
输入门
-
作用:决定哪些新信息应该被添加到记忆单元中。
-
组成:输入门由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息是重要的,而tanh函数则生成新的候选信息。
-
运算:输入门的输出与候选信息相乘,得到的结果将在记忆单元更新时被考虑。
输入门(sigmoid激活函数 + tanh激活函数)
-
遗忘门
-
作用:决定哪些旧信息应该从记忆单元中遗忘或移除。
-
组成:遗忘门仅由一个sigmoid激活函数组成。
sigmoid激活函数(区间0~1)
- 运算:sigmoid函数的输出直接与记忆单元的当前状态相乘,用于决定哪些信息应该被保留,哪些应该被遗忘。输出值越接近1的信息将被保留,而输出值越接近0的信息将被遗忘。
-
遗忘门(sigmoid激活函数)
-
输出门
-
作用:决定记忆单元中的哪些信息应该被输出到当前时间步的隐藏状态中。
-
组成:输出门同样由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息应该被输出,而tanh函数则处理记忆单元的状态以准备输出。
-
运算:sigmoid函数的输出与经过tanh函数处理的记忆单元状态相乘,得到的结果即为当前时间步的隐藏状态。
- 输出门(sigmoid激活函数 + tanh激活函数)
机器翻译:
应用描述:LSTM在机器翻译中用于将源语言句子自动翻译成目标语言句子。
关键组件:
-
编码器(Encoder):一个LSTM网络,负责接收源语言句子并将其编码成一个固定长度的上下文向量。
-
解码器(Decoder):另一个LSTM网络,根据上下文向量生成目标语言的翻译句子。
流程:
-
源语言输入:将源语言句子分词并转换为词向量序列。
-
编码:使用编码器LSTM处理源语言词向量序列,输出上下文向量。
-
初始化解码器:将上下文向量作为解码器LSTM的初始隐藏状态。
-
解码:解码器LSTM逐步生成目标语言的词序列,直到生成完整的翻译句子。
-
目标语言输出:将解码器生成的词序列转换为目标语言句子。
优化:通过比较生成的翻译句子与真实目标句子,使用反向传播算法优化LSTM模型的参数,以提高翻译质量。
情感分析:
应用描述:LSTM用于对文本进行情感分析,判断其情感倾向(积极、消极或中立)。
关键组件:
-
LSTM网络:接收文本序列并提取情感特征。
-
分类层:根据LSTM提取的特征进行情感分类。
流程:
-
文本预处理:将文本分词、去除停用词等预处理操作。
-
文本表示:将预处理后的文本转换为词向量序列。
-
特征提取:使用LSTM网络处理词向量序列,提取文本中的情感特征。
-
情感分类:将LSTM提取的特征输入到分类层进行分类,得到情感倾向。
-
输出:输出文本的情感倾向(积极、消极或中立)。
优化:通过比较预测的情感倾向与真实标签,使用反向传播算法优化LSTM模型的参数,以提高情感分析的准确性。
如何学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
学习路线
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓