大模型系列

news2024/9/16 23:49:31

大模型系列

flyfish

文章名称	链接
ChatGLM-6B 主要代码分析 RotaryEmbedding	链接
ChatGLM-6B 主要代码分析 ChatGLMModel	链接
预训练数据集和指令微调数据集格式的比较	链接
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 原理	链接
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 步骤	链接
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 对话格式约定数据集的处理	链接
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 配置参数	链接
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 4 微调后的运行	链接
GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）	链接
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 3 包括 Linux 和 Windows 下的微调	链接
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 2 环境搭建	链接
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 1 数据集	链接
调试和优化大型深度学习模型 - 5 启动训练命令	链接
调试和优化大型深度学习模型 - 4 混合精度训练中的关键组件 autocast 和 GradScaler	链接
调试和优化大型深度学习模型 - 3 分析在混合精度训练下模型的各个操作的性能	链接
调试和优化大型深度学习模型 - 2 使用 PyTorch Profiler 在 GPU 上分析模型的算子，并提取相关性能数据	链接
调试和优化大型深度学习模型 - 1 精确地输出哪个操作消耗了多少时间，以及是否有需要优化的瓶颈	链接
调试和优化大型深度学习模型 - 0 技术介绍	链接
从与原始的Transformer architecture比较来理解GPT	链接
使用 GPT 模型训练一个字符级别的语言模型	链接
使用 GPT 模型训练一个简单的加法 - 数据集构建	链接
理解最先进模型的起点GPT-2 源码配置的解释	链接
使用 GPT 模型训练一个简单的加法	链接
理解最先进模型的起点GPT-2 源码注释	链接
理解最先进模型的起点GPT-2	链接
比肩 GPT-4o 的 Llama 3.1 本地部署快速体验的方法	链接
Transformer - 时间特征的处理	链接
Transformer - 《Attention is All You Need》中的Scaled Dot-Product Attention，为什么要Scaled	链接
Multi-Head Attention 代码实现	链接
基于RNN和Transformer的词级语言建模代码分析数据集的处理 Dictionary 和 Corpus	链接
Transformer - 特征预处理	链接
基于RNN和Transformer的词级语言建模代码分析 RNNModel（LSTM 和 GRU）	链接
基于RNN和Transformer的词级语言建模代码分析 PositionalEncoding	链接
transformer代码分析的准备工作	链接
基于RNN和Transformer的词级语言建模代码分析 _generate_square_subsequent_mask	链接
基于RNN和Transformer的词级语言建模代码分析 log_softmax	链接
基于RNN和Transformer的词级语言建模代码分析 TransformerModel	链接
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释（2）	链接
Transformer - 编码器和解码器中的QKV分别来自哪	链接
Transformer - TokenEmbedding、 PositionalEmbedding、 TemporalEmbedding	链接
Transformer - Teacher Forcing	链接
Transformer - Self-Attention层的复杂度的计算	链接
Transformer - Layer Normalization	链接
Meta Llama 3 残差结构	链接
Transformer的Encoder和Decoder之间的交互	链接
Meta Llama 3 文本编码为 token	链接
Meta Llama 3 大型语言模型的超参数	链接
Meta Llama 3 前馈层	链接
Meta Llama 3 里面装饰器	链接
Grok-1 源码中语法 @dataclass 变量名称:变量类型	链接
使用GPT2预训练模型的方法	链接
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释（1）	链接
Transformer - 掩码张量	链接
Transformer - 注意⼒机制代码实现	链接
Positional Encoding 位置编码	链接
把词转换成可以计算的向量	链接
Transformer - Positional Encoding 位置编码代码实现	链接
Grok-1 源码中语法 Type Hints 箭头 -＞	链接
Transformer中的 Add Norm	链接
Transformer - 注意⼒机制 Scaled Dot-Product Attention 计算过程	链接
GPT中使用的Gaussian Error Linear Unit (GELU)	链接
词嵌入向量和位置编码向量的整合	链接
Transformer中的FeedForward	链接
Transformer - model architecture	链接
Vanilla Transformer	链接
torch.nn.Embedding	链接
深入理解交叉熵损失CrossEntropyLoss - nn.NLLLoss（Negative Log-Likelihood Loss）	链接
深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计	链接
深入理解交叉熵损失 CrossEntropyLoss - 似然	链接
深入理解交叉熵损失 CrossEntropyLoss - nn.LogSoftmax	链接
深入理解交叉熵损失CrossEntropyLoss - Softmax	链接
深入理解交叉熵损失CrossEntropyLoss - 损失函数	链接
深入理解交叉熵损失 CrossEntropyLoss - one-hot 编码	链接
Meta Llama 3 .transpose().contiguous().view	链接
深入理解交叉熵损失CrossEntropyLoss - 概率基础	链接
深入理解交叉熵损失 CrossEntropyLoss - 归一化	链接
深入理解交叉熵损失CrossEntropyLoss - 信息论（交叉熵）	链接
深入理解交叉熵损失 CrossEntropyLoss - CrossEntropyLoss	链接
深入理解交叉熵损失CrossEntropyLoss - 概率分布	链接
深入理解交叉熵损失CrossEntropyLoss - 对数	链接
深入理解交叉熵损失CrossEntropyLoss - 乘积符号在似然函数中的应用	链接