大模型系列
flyfish
文章名称 | 链接 |
---|---|
ChatGLM-6B 主要代码分析 RotaryEmbedding | 链接 |
ChatGLM-6B 主要代码分析 ChatGLMModel | 链接 |
预训练数据集和指令微调数据集格式的比较 | 链接 |
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 原理 | 链接 |
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 步骤 | 链接 |
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 对话格式约定 数据集的处理 | 链接 |
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 配置参数 | 链接 |
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 4 微调后的运行 | 链接 |
GPT助手的训练流程四个主要阶段( GPT Assistant training pipeline ) | 链接 |
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 3 包括 Linux 和 Windows 下的微调 | 链接 |
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 2 环境搭建 | 链接 |
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 1 数据集 | 链接 |
调试和优化大型深度学习模型 - 5 启动训练命令 | 链接 |
调试和优化大型深度学习模型 - 4 混合精度训练中的关键组件 autocast 和 GradScaler | 链接 |
调试和优化大型深度学习模型 - 3 分析在混合精度训练下模型的各个操作的性能 | 链接 |
调试和优化大型深度学习模型 - 2 使用 PyTorch Profiler 在 GPU 上分析模型的算子,并提取相关性能数据 | 链接 |
调试和优化大型深度学习模型 - 1 精确地输出哪个操作消耗了多少时间,以及是否有需要优化的瓶颈 | 链接 |
调试和优化大型深度学习模型 - 0 技术介绍 | 链接 |
从与原始的Transformer architecture比较来理解GPT | 链接 |
使用 GPT 模型训练一个字符级别的语言模型 | 链接 |
使用 GPT 模型训练一个简单的加法 - 数据集构建 | 链接 |
理解最先进模型的起点GPT-2 源码 配置的解释 | 链接 |
使用 GPT 模型训练一个简单的加法 | 链接 |
理解最先进模型的起点GPT-2 源码 注释 | 链接 |
理解最先进模型的起点GPT-2 | 链接 |
比肩 GPT-4o 的 Llama 3.1 本地部署快速体验的方法 | 链接 |
Transformer - 时间特征的处理 | 链接 |
Transformer - 《Attention is All You Need》中的Scaled Dot-Product Attention,为什么要Scaled | 链接 |
Multi-Head Attention 代码实现 | 链接 |
基于RNN和Transformer的词级语言建模 代码分析 数据集的处理 Dictionary 和 Corpus | 链接 |
Transformer - 特征预处理 | 链接 |
基于RNN和Transformer的词级语言建模 代码分析 RNNModel(LSTM 和 GRU) | 链接 |
基于RNN和Transformer的词级语言建模 代码分析 PositionalEncoding | 链接 |
transformer代码分析的准备工作 | 链接 |
基于RNN和Transformer的词级语言建模 代码分析 _generate_square_subsequent_mask | 链接 |
基于RNN和Transformer的词级语言建模 代码分析 log_softmax | 链接 |
基于RNN和Transformer的词级语言建模 代码分析 TransformerModel | 链接 |
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释(2) | 链接 |
Transformer - 编码器和解码器中的QKV分别来自哪 | 链接 |
Transformer - TokenEmbedding、 PositionalEmbedding、 TemporalEmbedding | 链接 |
Transformer - Teacher Forcing | 链接 |
Transformer - Self-Attention层的复杂度的计算 | 链接 |
Transformer - Layer Normalization | 链接 |
Meta Llama 3 残差结构 | 链接 |
Transformer的Encoder和Decoder之间的交互 | 链接 |
Meta Llama 3 文本编码为 token | 链接 |
Meta Llama 3 大型语言模型的超参数 | 链接 |
Meta Llama 3 前馈层 | 链接 |
Meta Llama 3 里面装饰器 | 链接 |
Grok-1 源码中语法 @dataclass 变量名称:变量类型 | 链接 |
使用GPT2预训练模型的方法 | 链接 |
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释(1) | 链接 |
Transformer - 掩码张量 | 链接 |
Transformer - 注意⼒机制 代码实现 | 链接 |
Positional Encoding 位置编码 | 链接 |
把词转换成可以计算的向量 | 链接 |
Transformer - Positional Encoding 位置编码 代码实现 | 链接 |
Grok-1 源码中语法 Type Hints 箭头 -> | 链接 |
Transformer中的 Add Norm | 链接 |
Transformer - 注意⼒机制 Scaled Dot-Product Attention 计算过程 | 链接 |
GPT中使用的Gaussian Error Linear Unit (GELU) | 链接 |
词嵌入向量和位置编码向量的整合 | 链接 |
Transformer中的FeedForward | 链接 |
Transformer - model architecture | 链接 |
Vanilla Transformer | 链接 |
torch.nn.Embedding | 链接 |
深入理解交叉熵损失CrossEntropyLoss - nn.NLLLoss(Negative Log-Likelihood Loss) | 链接 |
深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计 | 链接 |
深入理解交叉熵损失 CrossEntropyLoss - 似然 | 链接 |
深入理解交叉熵损失 CrossEntropyLoss - nn.LogSoftmax | 链接 |
深入理解交叉熵损失CrossEntropyLoss - Softmax | 链接 |
深入理解交叉熵损失CrossEntropyLoss - 损失函数 | 链接 |
深入理解交叉熵损失 CrossEntropyLoss - one-hot 编码 | 链接 |
Meta Llama 3 .transpose().contiguous().view | 链接 |
深入理解交叉熵损失CrossEntropyLoss - 概率基础 | 链接 |
深入理解交叉熵损失 CrossEntropyLoss - 归一化 | 链接 |
深入理解交叉熵损失CrossEntropyLoss - 信息论(交叉熵) | 链接 |
深入理解交叉熵损失 CrossEntropyLoss - CrossEntropyLoss | 链接 |
深入理解交叉熵损失CrossEntropyLoss - 概率分布 | 链接 |
深入理解交叉熵损失CrossEntropyLoss - 对数 | 链接 |
深入理解交叉熵损失CrossEntropyLoss - 乘积符号在似然函数中的应用 | 链接 |