秋招八股总结

news2024/9/20 2:59:12

transformer

损失函数

交叉熵的原理

公式

xi是true_label,yi是神经网络预测为正确的概率
在这里插入图片描述

对比学习loss

对比学习损失函数

InfoNEC Loss(bge中也用的这个)

在这里插入图片描述

SimCSE的主要思想:同一句话通过不同的drop out作为正例,其余的作为负例(损失函数还是用的InfoNEC Loss);数据增强用的2次dropout

【【一起读论文】SimCSE: Simple Contrastive Learning of Sentence Embeddings】https://www.bilibili.com/video/BV12g411M7AB?vd_source=22a0d494d7d586e6e37e23570688a816
在这里插入图片描述

为什么除以根号dk

  1. 防止梯度消失
    随着dk维度的值变大,点积的大小会增大,如果没有及时对点积的大小进行缩放,那么万一点积的数量级很大,softmax的梯度就会趋向于0,也就会出现梯度消失问题。
  2. 进行归一化
    为什么选择 ,时因为可以使得 Q 和 K 点积 趋向于 期望为0,方差为1的标准正态分布,说白了就是归一化。

标准化

标准化作用

缓解梯度消失 / BN缓解内部协变量偏移 / 有一定正则化作用

内部协变量偏移

在训练深层神经网络时,各层的输入分布会随着参数更新而变化,这种现象被称为内部协变量偏移(Internal Covariate Shift)。具体来说,随着训练的进行,每层的激活值(即层的输出)的均值和方差可能会发生变化。由于每层的输入分布在训练过程中不断变化,优化过程中的梯度更新也会受到影响,这会导致训练过程变得不稳定。批归一化的目标是缓解这一问题,使得网络的每一层的输入分布更加稳定,从而加快训练速度。

为什么用 LayerNorm 不使用 BatchNorm?

  1. 数据的角度
    CV 通常用 BatchNorm,NLP 通常用 LayerNorm。图像数据一个 Channel 内的关联性比较大,不同 Channel 的信息需要保持差异性。文本数据一个 Batch 内的不同样本关联性不大。
  2. Pad的角度解释
    不同句子的长度不同,在句子的末尾归一化会受到 pad 的影响,使得统计量不置信。
  3. 模型角度解释
    Self Attention 中,内积的大小的上界和 q,k 的 L2Norm 有关。LayerNorm 对 L2Norm 限制更加直接。

(3) BN 在训练和推理时的差别

BN 在训练和推理时的差别
训练阶段:在训练过程中,BN 使用当前小批量的数据计算均值和方差。
推理阶段:在推理阶段,BN 使用在训练过程中累积的全局均值和方差进行标准化,以确保模型的稳定性。

BN 与dropout 能否一起用?为什么?

添加链接描述
本论文作者发现理解 Dropout 与 BN 之间冲突的关键是网络状态切换过程中存在神经方差的(neural variance)不一致行为。试想若有图一中的神经响应 X,当网络从训练转为测试时,Dropout 可以通过其随机失活保留率(即 p)来缩放响应,并在学习中改变神经元的方差,而 BN 仍然维持 X 的统计滑动方差。这种方差不匹配可能导致数值不稳定(见下图中的红色曲线)。而随着网络越来越深,最终预测的数值偏差可能会累计,从而降低系统的性能。简单起见,作者们将这一现象命名为「方差偏移」。事实上,如果没有 Dropout,那么实际前馈中的神经元方差将与 BN 所累计的滑动方差非常接近(见下图中的蓝色曲线),这也保证了其较高的测试准确率。
在这里插入图片描述

attention的时间复杂度

n2d : n为序列长度,d为隐层维度

如何减少时间复杂度:Sparse Self Attention

在这里插入图片描述

instruct_gpt

在这里插入图片描述

RM损失函数

在这里插入图片描述

RL目标函数

在这里插入图片描述

什么阶段达到了所谓 in-context learning(gpt-3)

GPT与transformer decoder的区别

少一层无mask自注意力层(交叉自注意力) / LN层前置 / 模型的输出部分添加一个LN层 / 采用可训练的 postion embedding

分词算法

WordPiece

WordPiece核心思想是将单词拆分成多个前缀符号(比如BERT中的##)最小单元,再通过子词合并规则将最小单元进行合并为子词级别。例如对于单词"word",拆分如下:
w ##o ##r ##d
然后通过合并规则进行合并,从而循环迭代构建出一个词表,以下是核心步骤:

  1. 计算初始词表:通过训练语料获得或者最初的英文中26个字母加上各种符号以及常见中文字符,这些作为初始词表。
  2. 计算合并分数:对训练语料拆分的多个子词单元通过合拼规则计算合并分数。
  3. 合并分数最高的子词对:选择分数最高的子词对,将它们合并成一个新的子词单元,并更新词表。
  4. 重复合并步骤:不断重复步骤 2 和步骤 3,直到达到预定的词表大小、合并次数,或者直到不再有有意义的合并(即,进一步合并不会显著提高词表的效益)。
  5. 分词:使用最终得到的词汇表对文本进行分词。

Byte-Pair Encoding (BPE)

核心思想是逐步合并出现频率最高的子词对而不是像Wordpiece计算合并分数,从而构建出一个词汇表。
6. 计算初始词表:通过训练语料获得或者最初的英文中26个字母加上各种符号以及常见中文字符,这些作为初始词表。
7. 构建频率统计:统计所有子词单元对(两个连续的子词)在文本中的出现频率。
合并频率最高的子词对:选择出现频率最高的子词对,将它们合并成一个新的子词单元,并更新词汇表。
8. 重复合并步骤:不断重复步骤 2 和步骤 3,直到达到预定的词汇表大小、合并次数,或者直到不再有有意义的合并(即,进一步合并不会显著提高词汇表的效益)。
9. 分词:使用最终得到的词汇表对文本进行分词。

Byte-level BPE(BBPE)

手撕代码

多头自注意力代码

在这里插入图片描述

from math import sqrt
import torch
import torch.nn as nn
 
class MultiHeadSelfAttention(nn.Module):
    def __init__(self, dim_in, dim_k, dim_v, num_heads=8):
        super(MultiHeadSelfAttention, self).__init__()
        assert dim_k % num_heads == 0 and dim_v % num_heads == 0, "dim_k and dim_v must be multiple of num_heads"
        self.dim_in = dim_in
        self.dim_k = dim_k
        self.dim_v = dim_v
        self.num_heads = num_heads
        
        # 定义线性变换矩阵
        self.linear_q = nn.Linear(dim_in, dim_k, bias=False)
        self.linear_k = nn.Linear(dim_in, dim_k, bias=False)
        self.linear_v = nn.Linear(dim_in, dim_v, bias=False)
        
        # 最后通过线性层将输出映射回原来的维度
        self.fc_out = nn.Linear(dim_v, dim_in)
        
        self._norm_fact = 1 / sqrt(dim_k // num_heads)

    def forward(self, x):
        batch, n, dim_in = x.shape
        assert dim_in == self.dim_in
 
        nh = self.num_heads
        dk = self.dim_k // nh  # dim_k of each head
        dv = self.dim_v // nh  # dim_v of each head
 
        # 线性变换并切分头
        q = self.linear_q(x).reshape(batch, n, nh, dk).transpose(1, 2)  # (batch, nh, n, dk)
        k = self.linear_k(x).reshape(batch, n, nh, dk).transpose(1, 2)  # (batch, nh, n, dk)
        v = self.linear_v(x).reshape(batch, n, nh, dv).transpose(1, 2)  # (batch, nh, n, dv)
 
        # 计算注意力
        dist = torch.matmul(q, k.transpose(2, 3)) * self._norm_fact  # batch, nh, n, n
        dist = torch.softmax(dist, dim=-1)  # batch, nh, n, n
 
        # 根据注意力分数加权值矩阵
        att = torch.matmul(dist, v)  # batch, nh, n, dv
        att = att.transpose(1, 2).reshape(batch, n, self.dim_v)  # batch, n, dim_v
        
        # 最后通过线性层融合不同头的输出,并映射回原始维度
        out = self.fc_out(att)  # (batch, n, dim_in)
        
        return out

# test
x = torch.randn(2, 10, 128)
attn = MultiHeadSelfAttention(128, 64, 64, 8)
y = attn(x)
print(y.shape)  # torch.Size([2, 10, 64])

反向传播代码

激活函数

激活函数
激活函数
在这里插入图片描述
在这里插入图片描述

deepspeed(数据并行:zero、模型并行、张量并行(magnetron))

Deepspeed加速/优化方式

单byte-Adam / 稀疏注意力计算内核 / 3D并行

三种并行方式

Data Parallelism、Pipeline Parallelism、Tensor Parallelism

数据并行的5个步骤

在这里插入图片描述

通信的术语

all_reduce

在这里插入图片描述

不同分布式聚集的时间和带宽复杂度

在这里插入图片描述

递归的进行all_reduce

在这里插入图片描述

zero1,2,3

在这里插入图片描述

magatron

【Megatron LM 论文精读【论文精读】】https://www.bilibili.com/video/BV1nB4y1R7Yz?vd_source=22a0d494d7d586e6e37e23570688a816
在这里插入图片描述

petf

常用的轻量级微调方法有什么,异同点,与传统的fine-tuning的区别?
部分参数微调策略仅选择性地更新模型中的某些权重,尤其是在需要保留大部分预训练知识的情况下。

BitFit:Fine-tune only the bias terms

在这里插入图片描述

adapter

在这里插入图片描述
将较小的神经网络层或模块插入预训练模型的每一层,这些新插入的神经模块称为 adapter(适配器),下游任务微调时也只训练这些适配器参数;

prompt tuning

在这里插入图片描述

Prefix-Tuning

在这里插入图片描述

prompt tuning和Prefix-Tuning的缺点

在这里插入图片描述
在模型的输入或隐层添加个额外可训练的前缀 tokens(这些前缀是连续的伪 tokens,不对应真实的 tokens),只训练这些前缀参数;

lora

在这里插入图片描述
通过向模型权重矩阵添加低秩矩阵来进行微调,既允许模型学习新的任务特定模式,又能够保留大部分预训练知识,从而降低过拟合风险并提高训练效率。

lora参数量变化: 原矩阵 dd,lora秩为r (一般很小如4、8、16),则新参数量为 2d*r

qlora

在这里插入图片描述
使用一种新颖的高精度技术将预训练模型量化为 4 bit,然后添加一小组可学习的低秩适配器权重,这些权重通过量化权重的反向传播梯度进行微调。

排序算法

插入、交换、选择、归并、基数
稳定性:插入、冒泡、归并、基数

过拟合问题以及如何解决

a) 正则化
b) dropout 在训练和推理阶段分别怎样做
(训练只保留p的神经元激活值,推理激活值除以p恢复数据原始分布)
c) 增大数据规模 / 降低模型复杂度
d) Early-stop策略

L1/L2正则化

为什么加入正则化项只限制参数w,而不限制b

在这里插入图片描述

数据类别不均衡问题以及如何解决

  1. 不均衡时如何评估(类别不均衡时, 准确率意义不大) -> ROC曲线
    在这里插入图片描述
  2. 欠采样 (欠采样+集成学习) / 过采样
  3. 集成学习 + 阈值调整 (如随机森林)
  4. 一些特殊策略 如:focal loss (对难分类样本附加高权重)

举例三个线性的机器学习方法和三个非线性的机器学习方法

区分线性非线性:决策边界是否线性
线性:线性回归分类器,贝叶斯分类,单层感知机,SVM(线性核)等
非线性:决策树、随机森林、GBDT、SVM(非线性核)、多层感知机、神经网络

交叉熵 / 互信息 / 信息熵 公式

在这里插入图片描述

MOE机制原理

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2147688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

腾讯百度阿里华为常见算法面试题TOP100(6):回溯、二分查找、二叉树

之前总结过字节跳动TOP50算法面试题&#xff1a; 字节跳动常见算法面试题top50整理_沉迷单车的追风少年-CSDN博客_字节算法面试题 回溯 46.全排列 class Solution { private:vector<vector<int> > ans;void dfs(vector<int>& nums, vector<int>&a…

西南民族大学若尔盖国家野外台站王志强研究员团队在树皮生态化学计量学研究中取得新进展!

本文首发于“生态学者”微信公众号&#xff01; 近日&#xff0c;西南民族大学四川若尔盖高寒湿地生态系统国家野外科学观测研究站王志强研究员团队在植物科学顶级期刊New Phytologist和环境科学与生态学TOP期刊Science of the Total Environment分别以“Global patterns and …

【Java】网络编程-地址管理-IP协议后序-NAT机制-以太网MAC机制

&#x1f308;个人主页&#xff1a;努力学编程’ ⛅个人推荐&#xff1a; c语言从初阶到进阶 JavaEE详解 数据结构 ⚡学好数据结构&#xff0c;刷题刻不容缓&#xff1a;点击一起刷题 &#x1f319;心灵鸡汤&#xff1a;总有人要赢&#xff0c;为什么不能是我呢 &#x1f434…

AI大模型之旅-大模型为的微调参数详解

output model.generate( inputs.input_ids, max_lengthmax_length, do_sampledo_sample, temperaturetemperature, top_ptop_p, top_ktop_k ) 大模型文本常用参数为以上几个&#xff0c;下面我们详细解析下&#xff1a; 初解&#xff1a; max_length 定义&#xff1a;生成的…

MacOS安装homebrew,jEnv,多版本JDK

1 安装homebrew homebrew官网 根据官网提示&#xff0c;运行安装命令 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"安装后&#xff0c;bash会提示执行两条命令 (echo; echo eval "$(/opt/homebrew/b…

简明linux系统编程--共享内存消息队列信号量

目录 1.父子进程共享内存 1.1基本说明 1.2主要步骤 1.3shmget函数介绍​编辑 1.4函数返回值 1.5shmat函数介绍 1.6shmdt函数介绍 1.7结合代码理解 2.非亲缘关系的进程的共享内存通信 2.1和上面的区别 2.2如何通信 2.3具体代码 3.父子进程消息队列 4.非亲缘关系的进…

极狐GitLab 重要安全版本:17.3.3, 17.2.7, 17.1.8, 17.0.8, 16.11.10

GitLab 是一个全球知名的一体化 DevOps 平台&#xff0c;很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版&#xff0c;专门为中国程序员服务。可以一键式部署极狐GitLab。 学习极狐GitLab 的相关资料&#xff1a; 极狐GitLab 官网极狐…

BitLocker硬盘加密的详细教程分享

硬盘加密是将数据转换为一种只有授权用户才能读取的形式。通过使用加密算法&#xff0c;硬盘上的数据在存储时被加密&#xff0c;只有输入正确的密钥或密码才能解密和访问这些数据。 硬盘加密的重要性 数据是现代社会的重要资产&#xff0c;保护这些数据免受非法访问和窃取至关…

Mobile net V系列详解 理论+实战(2)

Mobilenet 系列 实践部分一、数据集介绍二、模型整体框架三、模型代码详解四、总结 实践部分 本章针对实践通过使用pytorch一个实例对这部分内容进行吸收分析。本章节采用的源代码在这里感兴趣的读者可以自行下载操作。 一、数据集介绍 可以看到数据集本身被存放在了三个文件…

处理RabbitMQ连接和认证问题

在使用RabbitMQ进行消息队列管理时&#xff0c;我们可能会遇到各种连接和认证问题。本文将介绍如何诊断和解决这些问题&#xff0c;并通过使用RabbitMQ的管理端进行登录验证来确保配置正确。 1. 问题概述 在最近的一次部署中&#xff0c;我们遇到了两个主要问题&#xff1a; …

一对一,表的设计

表很大&#xff0c;比如用户 用户登录只需要部分数据&#xff0c;所以把用户表拆成两个表 用户登录表 用户信息表 一对一设计有两种方案&#xff1a; 加外键&#xff0c;唯一 主键共享

学生考试成绩老师发布平台

老师们一直肩负着传授知识与评估学生学习成果的双重责任。其中&#xff0c;发布学生考试成绩是教学过程中不可或缺的一环。然而&#xff0c;传统的成绩发布方式往往繁琐且耗时。老师们需要手动整理成绩&#xff0c;然后通过电话、短信或电子邮件逐一通知学生和家长&#xff0c;…

Jenkins设置自动拉取代码后怎么设置自动执行构建任务?

在 Jenkins 中设置自动拉取代码后&#xff0c;可以通过以下步骤设置自动执行构建任务&#xff1a; 一、配置构建触发器 打开已经设置好自动拉取代码的 Jenkins 任务。在 “构建触发器” 部分&#xff0c;除了 “Poll SCM”&#xff08;用于定时检查代码仓库更新&#xff09;外…

Mybatis 和 数据库连接

第一次要下载驱动 查询数据库版本 但是在idea查看数据库我不行&#xff0c;插件我也装了&#xff0c;然后我在尝试改版本。也不行。 爆错 感觉还是插件的问题。先不弄了&#xff0c;影响不大。 但是加载了这个&#xff0c;能在idea写sql语句&#xff0c;还能有提示。

【IPOL阅读】点云双边滤波

文章目录 简介点云滤波处理结果 简介 IPOL&#xff0c;即Image Processing On Line&#xff0c;理论上是一个期刊&#xff0c;但影响因子很低&#xff0c;只是个SCIE&#xff0c;按理说没什么参考价值。但是&#xff0c;这个网站的所有文章&#xff0c;都附带了源代码和演示窗…

【三步搭建 本地 编程助手 codegeex】

这里写目录标题 第一步 ollama安装常见报错 第二步 下载启动模型下载启动模型常见问题 第三步配置codegeex安装插件本地配置 其他 如果可以联网&#xff0c;vscode装个codegeex插件即可&#xff0c;本次搭建的本地编程助手&#xff0c;解决因安全问题完全无网络的情况下的编程助…

诗文发布模板(python代码打造键盘录入诗文自动排版,MarkDown源码文本)

python最好用的f-string&#xff0c;少量代码打造键盘录入诗文自动排版。 (笔记模板由python脚本于2024年09月19日 19:11:50创建&#xff0c;本篇笔记适合喜欢写诗的pythoner的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&am…

新手入门大模型教程(非常详细)零基础入门到精通,收藏这一篇就够了

目前大模型非常的火&#xff0c;国内开始流行大模型应用&#xff0c;那么作为程序员对于大模型有什么要了解和学习的我们今天就来研究下。 深度学习基础 因为大模型也是人工智能&#xff0c;人工智能就要先学习一下深度学习&#xff0c;深度学习是机器学习领域中的一个方向。…

Linux通过yum安装Docker

目录 一、安装环境 1.1. 旧的docker包卸载 1.2. 安装常规环境包 1.3. 设置存储库 二、安装Docker社区版 三、解决拉取镜像失败 3.1. 创建文件目录/etc/docker 3.2. 写入镜像配置 https://docs.docker.com/engine/install/centos/ 检测操作系统版本&#xff0c;我操作的…

英飞凌最新AURIX™TC4x芯片介绍

概述: 英飞凌推出最新的AURIX™TC4x系列,突破了电动汽车、ADAS、汽车e/e架构和边缘应用人工智能(AI)的界限。这一代面向未来的微控制器将有助于克服安全可靠的处理性能和效率方面的限制。客户将可缩短快速上市时间并降低整体系统成本。为何它被称为汽车市场新出现的主要颠覆…