NLP/大模型八股专栏结构解析

news2025/4/6 5:16:40

1.transformer 结构相关

(1)transformer的基本结构有哪些,分别的作用是什么,代码实现。
NLP高频面试题(一)——Transformer的基本结构、作用和代码实现
(2)LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么?
NLP高频面试题(二)——LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么?
NLP高频面试题(三)——普通RNN的梯度消失和梯度爆炸问题
(3)为什么要多头注意力机制?

(4)为什么要有QKV三个不同的向量,目前对这块有哪些优化?

(5)self-attention和cross-attention的区别与联系

(6)BN和LN的区别与联系,为什么attention要用LN

NLP高频面试题(四)——BN和LN的区别与联系,为什么attention要用LN

NLP高频面试题(三十四)——深度解析Layer Normalization与Batch Normalization:区别、联系及Transformer为何偏爱LN

2. bert及其变体相关

(1)BERT的基本结构介绍、预训练任务、下游任务
NLP高频面试题(五)——BERT的基本结构介绍、预训练任务、下游任务

(2)BERT和传统的文本表示模型的区别与联系

(3)Bert和transformer论文中有哪些不一样的地方

(4)GPT的基本结构介绍

(5)decoder-only、encoder-only和encoder-decoder的区别与联系
NLP高频面试题(六)——decoder-only、encoder-only和encoder-decoder的区别与联系

(6)GPT和Bert的mask有什么区别?
NLP高频面试题(七)——GPT和Bert的mask有什么区别?

(7)GPT1,2,3分别有哪些改进

NLP高频面试题(八)——GPT三个版本的区别
(8)

3. NLP任务相关

4. 大模型相关

(1)目前常见的几种大模型架构是啥样的
NLP高频面试题(十)——目前常见的几种大模型架构是啥样的

(2)RLHF的流程有哪些
NLP高频面试题(十一)——RLHF的流程有哪些

(3)Lora微调的原理、什么是Qlora
NLP高频面试题(十二)——Lora微调的原理、什么是Qlora

(4)什么是大模型幻觉,如何解决大模型幻觉
NLP高频面试题(十三)——什么是大模型幻觉,如何解决大模型幻觉

(5)DPO、PPO等强化学习训练方法介绍
NLP高频面试题(十四)——DPO、PPO等强化学习训练方法介绍

(6)大模型解码常见参数解析
NLP高频面试题(九)——大模型常见的几种解码方案

NLP高频面试题(二十九)——大模型解码常见参数解析

(7)RAG相关内容简介
NLP高频面试题(二十四)——RAG相关内容简介
(8)RAG的reranker模块结果,原理和目前存在的挑战
NLP高频面试题(二十五)——RAG的reranker模块结果,原理和目前存在的挑战

(9)RAG的retriever模块作用,原理和目前存在的挑战
NLP高频面试题(二十六)——RAG的retriever模块作用,原理和目前存在的挑战
(10)SFT有哪几种参数微调方法?有什么优缺点?
NLP高频面试题(二十七)——SFT有哪几种参数微调方法?有什么优缺点?
(11)Reward model是如何训练的,怎么训练一个比较好的Reward model
NLP高频面试题(二十八)——Reward model是如何训练的,怎么训练一个比较好的Reward model

(12)LLama系列模型介绍,包括LLama LLama2和LLama3
NLP高频面试题(三十)——LLama系列模型介绍,包括LLama LLama2和LLama3
NLP高频面试题(三十五)——LLaMA / ChatGLM / BLOOM的区别
(13)多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解
NLP高频面试题(三十一)——多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解
(14)介绍一下CLIP和CLIP2
NLP高频面试题(三十二)——介绍一下CLIP和CLIP2
(15)Vision Transformer(ViT)模型架构介绍
NLP高频面试题(三十三)——Vision Transformer(ViT)模型架构介绍
(16)深入理解思维链(Chain-of-Thought)提示方法
NLP高频面试题(三十六)——深入理解思维链(Chain-of-Thought)提示方法

5. AI Infra相关

(1)有哪几种分布式训练方式
NLP高频面试题(十五)——有哪几种分布式训练方式

(2)deepspeed原理
NLP高频面试题(十六)——deepspeed原理

(3)什么是KV Cache
NLP高频面试题(十七)——什么是KV Cache

(4)什么是prefill和decoder分离架构
NLP高频面试题(十八)——什么是prefill和decoder分离架构

(5)VLLM推理加速原理
NLP高频面试题(十九)——VLLM推理加速原理

(6)flash attention原理
NLP高频面试题(二十)——flash attention原理

6. DeepSeek相关

(1)deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的
NLP高频面试题(二十一)——deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的

(2)deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用
NLP高频面试题(二十二)——deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用

7. 其他

(1)对抗训练的发展脉络,原理,演化路径
NLP高频面试题(二十三)对抗训练的发展脉络,原理,演化路径

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2328975.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot洗衣店订单管理系统设计与实现

一个基于SpringBoot的洗衣店订单管理系统的设计与实现。 系统概述 支持管理员管理顾客与店家信息、店家管理店铺与洗衣信息,以及顾客预约、查看洗衣信息与交流等功能。 部分功能模块 1. 管理员模块 ​顾客信息管理 ​店家信息管理 2. 店家模块 ​店铺信息管 …

模版的特性及其编译分离

1.模版的分类 模版参数分为 类型形参 和 非类型形参 类型形参:出现在模版参数列表中,跟在class和typename之后的参数类型名称 非类型形参:就是用一个常量作为类(函数)模版的一个参数,在类(函…

NO.66十六届蓝桥杯备战|基础算法-贪心-区间问题|凌乱的yyy|Rader Installation|Sunscreen|牛栏预定(C++)

区间问题是另⼀种⽐较经典的贪⼼问题。题⽬⾯对的对象是⼀个⼀个的区间,让我们在每个区间上做出取舍。 这种题⽬的解决⽅式⼀般就是按照区间的左端点或者是右端点排序,然后在排序之后的区间上,根据题⽬要求,制定出相应的贪⼼策略&…

搭建redis主从同步实现读写分离(原理剖析)

搭建redis主从同步实现读写分离(原理剖析) 文章目录 搭建redis主从同步实现读写分离(原理剖析)前言一、搭建主从同步二、同步原理 前言 为什么要学习redis主从同步,实现读写分析。因为单机的redis虽然是基于内存,单机并发已经能支撑很高。但是随着业务量…

Rust切片、结构体、枚举

文章目录 切片类型字符串切片其他结构的切片 结构体结构体实例元组结构体结构体所有权输出结构体结构体的方法结构体关联函数单元结构体 枚举match语法Option枚举类if let 语句 切片类型 切片(Slice)是对数据值的部分“引用” 我们可以从一个数据集合中…

【学习笔记】深度学习环境部署相关

文章目录 [AI硬件科普] 内存/显存带宽,从 NVIDIA 到苹果 M4[工具使用] tmux 会话管理及会话持久性[A100 02] GPU 服务器压力测试,gpu burn,cpu burn,cuda samples[A100 01] A100 服务器开箱,超微平台,gpu、…

股票日数据使用_未复权日数据生成前复权日周月季年数据

目录 前置: 准备 代码:数据库交互部分 代码:生成前复权 日、周、月、季、年数据 前置: 1 未复权日数据获取,请查看 https://blog.csdn.net/m0_37967652/article/details/146435589 数据库使用PostgreSQL。更新日…

【LeetCode Solutions】LeetCode 146 ~ 150 题解

CONTENTS LeetCode 146. LRU 缓存(中等)LeetCode 147. 对链表进行插入排序(中等)LeetCode 148. 排序链表(中等)LeetCode 149. 直线上最多的点数(困难)LeetCode 150. 逆波兰表达式求值…

《 如何更高效地学习》

🚀个人主页:BabyZZの秘密日记 📖收入专栏:个人谈心 🌍文章目入 一、明确学习目标二、制定学习计划三、选择合适的学习方法(一)主动学习(二)分散学习(三&#…

分布式数据一致性场景与方案处理分析|得物技术

一、引言 在经典的CAP理论中一致性是指分布式或多副本系统中数据在任一时刻均保持逻辑与物理状态的统一,这是确保业务逻辑正确性和系统可靠性的核心要素。在单体应用单一数据库中可以直接通过本地事务(ACID)保证数据的强一致性。 然而随着微服务架构的普及和业务场…

JAVA:使用 Curator 进行 ZooKeeper 操作的技术指南

1、简述 Apache Curator 是一个基于 ZooKeeper 的 Java 客户端库,它极大地简化了使用 ZooKeeper 的开发工作。Curator 提供了高层次的 API,封装了很多复杂的 ZooKeeper 操作,例如连接管理、分布式锁、Leader 选举等。 在分布式系统中&#…

Linux中的调试器gdb与冯·诺伊曼体系

一、Linux中的调试器:gdb 1.1安装与版本查看 可以使用yum进行安装: yum install -y gdb 版本查看:使用指令 gdb --version 1.2调试的先决条件:release版本与debug版本的切换 debug版本:含有调试信息 release版本…

STM32 + keil5 跑马灯

硬件清单 1. STM32F407VET6 2. STLINK V2下载器(带线) 环境配置 1. 安装ST-LINK 2. 安装并配置 keil5 https://blog.csdn.net/qq_36535414/article/details/108947292 https://blog.csdn.net/weixin_43732386/article/details/117375266 3. 接线并下载 点击"LOAD“&a…

盲盒小程序开发平台搭建:打造个性化、高互动性的娱乐消费新体验

在数字化浪潮席卷消费市场的今天,盲盒小程序以其独特的趣味性和互动性,迅速成为了年轻人追捧的娱乐消费新宠。盲盒小程序不仅为用户带来了拆盒的惊喜和刺激,更为商家提供了创新的营销手段。为了满足市场对盲盒小程序日益增长的需求&#xff0…

DuckDB系列教程:如何分析Parquet文件

Parquet 是一种强大的、基于列的存储格式,适用于实现更快捷和更高效的数据分析。您可以使用 DuckDB 这种内存型分析数据库来处理 Parquet 文件并运行查询以对其进行分析。 在这篇文章中,我们将逐步介绍如何使用 DuckDB 对存储在 Parquet 文件中的餐厅订单…

GRE,MGRE

GRE:静态过程,有局限性 R1 : [r1]interface Tunnel 0/0/0 --- 创建一个虚拟的隧道接口 [r1-Tunnel0/0/0]ip address 192.168.3.1 24 --- 给隧道接口分配一个 IP 地址 [r1-Tunnel0/0/0]tunnel-protocol gre --- 定义接口的封装方式 [r1-Tun…

【linux学习】linux系统调用编程

目录 一、任务、进程和线程 1.1任务 1.2进程 1.3线程 1.4线程和进程的关系 1.5 在linux系统下进程操作 二、Linux虚拟内存管理与stm32的真实物理内存区别 2.1 Linux虚拟内存管理 2.2 STM32的真实物理内存映射 2.3区别 三、 Linux系统调用函数 fork()、wait()、exec(…

Azure Speech 赋能,为智能硬件注入 AI 语音 “新灵魂”

在人工智能技术飞速发展的今天,智能硬件正逐步渗透到人们生活的方方面面。AI玩具、AI眼镜、AI鼠标等创新产品不仅提升了用户体验,更带来了前所未有的交互方式。领驭科技凭借微软Azure Speech的强大技术能力,为硬件厂商提供一站式AI语音解决方…

SignalR给特定User发送消息

1、背景 官网上SignalR的demo很详细,但是有个特别的问题,就是没有详细阐述如何给指定的用户发送消息。 2、解决思路 网上整体解决思路有三个: 1、最简单的方案,客户端连接SignalR的Hub时,只是简单的连接&#xff0c…

React: hook相当于函数吗?

一、Hook 是一个函数,但不仅仅是函数 函数的本质 Hook 确实是一个 JavaScript 函数,例如 useState、useEffect 或自定义 Hook 都是函数。它们可以接受参数(如初始状态值或依赖项数组),并返回结果(如状态值和…