1.transformer 结构相关
(1)transformer的基本结构有哪些,分别的作用是什么,代码实现。
NLP高频面试题(一)——Transformer的基本结构、作用和代码实现
(2)LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么?
NLP高频面试题(二)——LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么?
NLP高频面试题(三)——普通RNN的梯度消失和梯度爆炸问题
(3)为什么要多头注意力机制?
(4)为什么要有QKV三个不同的向量,目前对这块有哪些优化?
(5)self-attention和cross-attention的区别与联系
(6)BN和LN的区别与联系,为什么attention要用LN
NLP高频面试题(四)——BN和LN的区别与联系,为什么attention要用LN
NLP高频面试题(三十四)——深度解析Layer Normalization与Batch Normalization:区别、联系及Transformer为何偏爱LN
2. bert及其变体相关
(1)BERT的基本结构介绍、预训练任务、下游任务
NLP高频面试题(五)——BERT的基本结构介绍、预训练任务、下游任务
(2)BERT和传统的文本表示模型的区别与联系
(3)Bert和transformer论文中有哪些不一样的地方
(4)GPT的基本结构介绍
(5)decoder-only、encoder-only和encoder-decoder的区别与联系
NLP高频面试题(六)——decoder-only、encoder-only和encoder-decoder的区别与联系
(6)GPT和Bert的mask有什么区别?
NLP高频面试题(七)——GPT和Bert的mask有什么区别?
(7)GPT1,2,3分别有哪些改进
NLP高频面试题(八)——GPT三个版本的区别
(8)
3. NLP任务相关
4. 大模型相关
(1)目前常见的几种大模型架构是啥样的
NLP高频面试题(十)——目前常见的几种大模型架构是啥样的
(2)RLHF的流程有哪些
NLP高频面试题(十一)——RLHF的流程有哪些
(3)Lora微调的原理、什么是Qlora
NLP高频面试题(十二)——Lora微调的原理、什么是Qlora
(4)什么是大模型幻觉,如何解决大模型幻觉
NLP高频面试题(十三)——什么是大模型幻觉,如何解决大模型幻觉
(5)DPO、PPO等强化学习训练方法介绍
NLP高频面试题(十四)——DPO、PPO等强化学习训练方法介绍
(6)大模型解码常见参数解析
NLP高频面试题(九)——大模型常见的几种解码方案
NLP高频面试题(二十九)——大模型解码常见参数解析
(7)RAG相关内容简介
NLP高频面试题(二十四)——RAG相关内容简介
(8)RAG的reranker模块结果,原理和目前存在的挑战
NLP高频面试题(二十五)——RAG的reranker模块结果,原理和目前存在的挑战
(9)RAG的retriever模块作用,原理和目前存在的挑战
NLP高频面试题(二十六)——RAG的retriever模块作用,原理和目前存在的挑战
(10)SFT有哪几种参数微调方法?有什么优缺点?
NLP高频面试题(二十七)——SFT有哪几种参数微调方法?有什么优缺点?
(11)Reward model是如何训练的,怎么训练一个比较好的Reward model
NLP高频面试题(二十八)——Reward model是如何训练的,怎么训练一个比较好的Reward model
(12)LLama系列模型介绍,包括LLama LLama2和LLama3
NLP高频面试题(三十)——LLama系列模型介绍,包括LLama LLama2和LLama3
NLP高频面试题(三十五)——LLaMA / ChatGLM / BLOOM的区别
(13)多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解
NLP高频面试题(三十一)——多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解
(14)介绍一下CLIP和CLIP2
NLP高频面试题(三十二)——介绍一下CLIP和CLIP2
(15)Vision Transformer(ViT)模型架构介绍
NLP高频面试题(三十三)——Vision Transformer(ViT)模型架构介绍
(16)深入理解思维链(Chain-of-Thought)提示方法
NLP高频面试题(三十六)——深入理解思维链(Chain-of-Thought)提示方法
5. AI Infra相关
(1)有哪几种分布式训练方式
NLP高频面试题(十五)——有哪几种分布式训练方式
(2)deepspeed原理
NLP高频面试题(十六)——deepspeed原理
(3)什么是KV Cache
NLP高频面试题(十七)——什么是KV Cache
(4)什么是prefill和decoder分离架构
NLP高频面试题(十八)——什么是prefill和decoder分离架构
(5)VLLM推理加速原理
NLP高频面试题(十九)——VLLM推理加速原理
(6)flash attention原理
NLP高频面试题(二十)——flash attention原理
6. DeepSeek相关
(1)deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的
NLP高频面试题(二十一)——deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的
(2)deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用
NLP高频面试题(二十二)——deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用
7. 其他
(1)对抗训练的发展脉络,原理,演化路径
NLP高频面试题(二十三)对抗训练的发展脉络,原理,演化路径