上期文章
【每日算法】理论:多模态系列 刷题:栈的应用
文章目录
- 上期文章
- 一、上期问题
- 二、本期理论问题
- 1、GPT1,2,3的区别
- 2、解决过拟合的方法
- 3、LLM的生成原理
- 4、对比LSTM,GRU,transformer
- 5、zero-shot
- 6、pre-norm和post-norm的区别?bert用的是哪一种?
- 三、力扣刷题回顾-栈与队列
- 239. 滑动窗口最大值
- 347.前 K 个高频元素
一、上期问题
- GPT
- BLIP
- Pix2Pix
- 常见的激活函数及其优缺点
- 残差模块如何缓解梯度消失
- ViLT
二、本期理论问题
1、GPT1,2,3的区别
- GPT1是GPT系列的第一个模型,提出了decoder-only架构和预训练-微调范式;
- GPT2在GPT1的基础上,
- 在扩展到下游任务时,会有 zero-shot 的设定,不需要再重新训练模型,因此训练好之后在任何任务上都能用。
- 结构上:将后置层归一化(post-norm)改为前置层归一化(pre-norm);模型最后一个自注意力层之后,额外增加一个层归一化;去掉了fine-tuning 训练,只有无监督的 pre-training阶段。
- GPT3在结构上和GPT-1 GPT-2的区别主要在于使用了稀疏的自注意力模块来减少计算复杂度,具体叫局部带状稀疏注意力locally banded sparse attention。
【论文精读】 GPT,GPT-2,GPT-3:大力出奇迹
2、解决过拟合的方法
过拟合是指模型在训练数据上表现非常好,但在未见过的新数据(测试数据)上表现较差。这种现象是由于模型在训练时过度拟合了训练数据的细节和噪声,导致在新数据上泛化能力较差。
- 数据增强:通过对训练数据进行随机变换(例如旋转、翻转、平移等),增加数据的多样性,从而减少过拟合的可能性。
- 正则化:添加正则化项(如L1正则化或L2正则化)到损失函数中,限制模型的参数大小,降低过拟合风险。
- 提前停止(Early Stopping):在训练过程中,通过监控验证集的性能,当性能不再提升时,停止训练,防止过度拟合。
- 使用更多数据:增加训练数据量可以降低过拟合风险,让模型更好地学习数据的真实分布。
- 简化模型:减少模型的复杂度,如减少网络的层数、每层的神经元数量等。
3、LLM的生成原理
生成原理是基于条件概率的文本生成。在训练过程中,LLM学习了文本数据中的统计规律,包括单词之间的关联、句子结构、语法规则等。通过给定一个初始文本序列或部分文本序列,LLM可以利用学到的统计模型来计算下一个最有可能出现的词或字符,然后将其作为生成序列的一部分。这个过程不断迭代,每次根据前面生成的序列预测下一个最合适的词或字符,从而逐步生成出一段连贯的文本。
4、对比LSTM,GRU,transformer
- LSTM旨在处理长期依赖关系时遇到RNN中的梯度消失问题。LSTM通过引入门控机制来控制信息的流动,有效地延长了梯度的传播路径,从而减轻了梯度消失的影响
- GRU是LSTM的简化版,计算效率和内存占用相对改善很多,但是性能差异不大
- transformer引入了自注意力机制,使encoder端后面的列也能看到前面的序列,同时也能够并行计算计算效率有大幅的提升
5、zero-shot
zero-shot是在训练集类别和测试集类别之间没有交集的情况下,通过借助类别的描述来建立训练集和测试集之间的联系,从而实现只利用训练集数据训练模型之后,模型就能对测试集的对象进行分类。zero-shot模型在做到下游任务时,既不需要下游任务的任何标注的信息,也不需要重新训练模型。
6、pre-norm和post-norm的区别?bert用的是哪一种?
Post-Norm和Pre-Norm是根据Normalization在结构中的位置进行划分的。同一设置之下,Pre Norm结构往往更容易训练,效果也更好,但是如果单独调,post norm的最终效果会更好。Post-Norm在残差之后做归一化,对参数正则化的效果更强,进而模型的收敛性也会更好;而Pre-Norm有一部分参数直接加在了后面,没有对这部分参数进行正则化,可以在反向时防止梯度爆炸或者梯度消失,使得训练更容易,大模型的训练难度大,因而使用Pre-Norm较多。
【论文精读】 GPT,GPT-2,GPT-3:大力出奇迹
三、力扣刷题回顾-栈与队列
上期涉及题目:
- 20. 有效的括号
- 1047. 删除字符串中的所有相邻重复项
- 150. 逆波兰表达式求值
本期题目:
- 239. 滑动窗口最大值
- 347.前 K 个高频元素
239. 滑动窗口最大值:
- 给定输入:一个整数数组nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。
- 要求输出:返回 滑动窗口中的最大值 。
347.前 K 个高频元素:
- 给定输入:一个整数数组 nums 和一个整数 k
- 要求输出:返回其中出现频率前 k 高的元素
- 补充:可以按 任意顺序 返回答案。
对比分析:
239. 滑动窗口最大值和347.前 K 个高频元素都是运用队列的题目。239. 滑动窗口最大值一题主要使用单调队列,而347.前 K 个高频元素主要使用优先级队列。
239. 滑动窗口最大值
核心思想:先自行创建一个单调队列,在将大小为k的滑动窗口中元素放进队列中时,如果元素比当前队列中元素值都大,那么就弹出前边的元素,确保当前队列的最外端的元素始终为窗口的最大值。
from collections import deque
class MyQueue:
def __init__(self):
self.queue = deque() #这里需要使用deque实现单调队列,直接使用list会超时
#每次弹出的时候,比较当前要弹出的数值是否等于队列出口元素的数值,如果相等则弹出。
#同时pop之前判断队列当前是否为空。
def pop(self,value):
if self.queue and value == self.queue[0]:
self.queue.popleft() #list.pop()时间复杂度为O(n),这里需要使用collections.deque()
#如果push的数值大于入口元素的数值,那么就将队列后端的数值弹出,直到push的数值小于等于队列入口元素的数值为止。
#这样就保持了队列里的数值是单调从大到小的了。
def push(self,value):
while self.queue and value > self.queue[-1]:
self.queue.pop()
self.queue.append(value)
#查询当前队列里的最大值 直接返回队列前端也就是front就可以了。
def front(self):
return self.queue[0]
class Solution:
def maxSlidingWindow(self, nums: List[int], k: int) -> List[int]:
queue = MyQueue()
result = []
for i in range(k): #先将前k个元素放进队列
queue.push(nums[i])
result.append(queue.front()) #result记录前k个元素的最大值
for i in range(k,len(nums)):
queue.pop(nums[i-k]) #滑动窗口移除最前面元素
queue.push(nums[i]) #滑动窗口前加入最后面的元素
result.append(queue.front()) #记录对应的最大值
return result
简略版本:
class Solution:
def maxSlidingWindow(self, nums: List[int], k: int) -> List[int]:
ans = []
q = deque() # 双端队列
for i, x in enumerate(nums):
# 1. 入
while q and nums[q[-1]] <= x:
q.pop() # 维护 q 的单调性
q.append(i) # 入队
# 2. 出
if i - q[0] >= k: # 队首已经离开窗口了
q.popleft()
# 3. 记录答案
if i >= k - 1:
# 由于队首到队尾单调递减,所以窗口最大值就是队首
ans.append(nums[q[0]])
return ans
347.前 K 个高频元素
核心思想:使用map来进行统计元素出现的频率,使用优先级队列对频率进行排序
class Solution:
def topKFrequent(self, nums: List[int], k: int) -> List[int]:
map_ = {} #nums[i]:对应出现的次数
for i in range(len(nums)):
map_[nums[i]] = map_.get(nums[i],0)+1
#对频率排序
#定义一个小顶堆,大小为k
pri_que = [] #小顶堆
#用固定大小为k的小顶堆,扫描所有频率的数值
for key,freq in map_.items():
heapq.heappush(pri_que,(freq,key))
if len(pri_que) > k:
heapq.heappop(pri_que)
#找出前k个高频元素,因为小顶堆先弹出的是最小的,所以倒序来输出到数组
result =[0]*k
for i in range(k-1,-1,-1):
result[i] = heapq.heappop(pri_que)[1]
return result
参考:
代码随想录算法训练营第十一天|239. 滑动窗口最大值,347.前 K 个高频元素,总结