大模型系列

news2024/9/16 23:49:31

大模型系列

flyfish

文章名称链接
ChatGLM-6B 主要代码分析 RotaryEmbedding链接
ChatGLM-6B 主要代码分析 ChatGLMModel链接
预训练数据集和指令微调数据集格式的比较链接
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 原理链接
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 步骤链接
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 对话格式约定 数据集的处理链接
高效微调大型预训练模型的方法 - LoRA 微调 ChatGLM3-6B 配置参数链接
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 4 微调后的运行链接
GPT助手的训练流程四个主要阶段( GPT Assistant training pipeline )链接
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 3 包括 Linux 和 Windows 下的微调链接
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 2 环境搭建链接
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 1 数据集链接
调试和优化大型深度学习模型 - 5 启动训练命令链接
调试和优化大型深度学习模型 - 4 混合精度训练中的关键组件 autocast 和 GradScaler链接
调试和优化大型深度学习模型 - 3 分析在混合精度训练下模型的各个操作的性能链接
调试和优化大型深度学习模型 - 2 使用 PyTorch Profiler 在 GPU 上分析模型的算子,并提取相关性能数据链接
调试和优化大型深度学习模型 - 1 精确地输出哪个操作消耗了多少时间,以及是否有需要优化的瓶颈链接
调试和优化大型深度学习模型 - 0 技术介绍链接
从与原始的Transformer architecture比较来理解GPT链接
使用 GPT 模型训练一个字符级别的语言模型链接
使用 GPT 模型训练一个简单的加法 - 数据集构建链接
理解最先进模型的起点GPT-2 源码 配置的解释链接
使用 GPT 模型训练一个简单的加法链接
理解最先进模型的起点GPT-2 源码 注释链接
理解最先进模型的起点GPT-2链接
比肩 GPT-4o 的 Llama 3.1 本地部署快速体验的方法链接
Transformer - 时间特征的处理链接
Transformer - 《Attention is All You Need》中的Scaled Dot-Product Attention,为什么要Scaled链接
Multi-Head Attention 代码实现链接
基于RNN和Transformer的词级语言建模 代码分析 数据集的处理 Dictionary 和 Corpus链接
Transformer - 特征预处理链接
基于RNN和Transformer的词级语言建模 代码分析 RNNModel(LSTM 和 GRU)链接
基于RNN和Transformer的词级语言建模 代码分析 PositionalEncoding链接
transformer代码分析的准备工作链接
基于RNN和Transformer的词级语言建模 代码分析 _generate_square_subsequent_mask链接
基于RNN和Transformer的词级语言建模 代码分析 log_softmax链接
基于RNN和Transformer的词级语言建模 代码分析 TransformerModel链接
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释(2)链接
Transformer - 编码器和解码器中的QKV分别来自哪链接
Transformer - TokenEmbedding、 PositionalEmbedding、 TemporalEmbedding链接
Transformer - Teacher Forcing链接
Transformer - Self-Attention层的复杂度的计算链接
Transformer - Layer Normalization链接
Meta Llama 3 残差结构链接
Transformer的Encoder和Decoder之间的交互链接
Meta Llama 3 文本编码为 token链接
Meta Llama 3 大型语言模型的超参数链接
Meta Llama 3 前馈层链接
Meta Llama 3 里面装饰器链接
Grok-1 源码中语法 @dataclass 变量名称:变量类型链接
使用GPT2预训练模型的方法链接
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释(1)链接
Transformer - 掩码张量链接
Transformer - 注意⼒机制 代码实现链接
Positional Encoding 位置编码链接
把词转换成可以计算的向量链接
Transformer - Positional Encoding 位置编码 代码实现链接
Grok-1 源码中语法 Type Hints 箭头 ->链接
Transformer中的 Add Norm链接
Transformer - 注意⼒机制 Scaled Dot-Product Attention 计算过程链接
GPT中使用的Gaussian Error Linear Unit (GELU)链接
词嵌入向量和位置编码向量的整合链接
Transformer中的FeedForward链接
Transformer - model architecture链接
Vanilla Transformer链接
torch.nn.Embedding链接
深入理解交叉熵损失CrossEntropyLoss - nn.NLLLoss(Negative Log-Likelihood Loss)链接
深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计链接
深入理解交叉熵损失 CrossEntropyLoss - 似然链接
深入理解交叉熵损失 CrossEntropyLoss - nn.LogSoftmax链接
深入理解交叉熵损失CrossEntropyLoss - Softmax链接
深入理解交叉熵损失CrossEntropyLoss - 损失函数链接
深入理解交叉熵损失 CrossEntropyLoss - one-hot 编码链接
Meta Llama 3 .transpose().contiguous().view链接
深入理解交叉熵损失CrossEntropyLoss - 概率基础链接
深入理解交叉熵损失 CrossEntropyLoss - 归一化链接
深入理解交叉熵损失CrossEntropyLoss - 信息论(交叉熵)链接
深入理解交叉熵损失 CrossEntropyLoss - CrossEntropyLoss链接
深入理解交叉熵损失CrossEntropyLoss - 概率分布链接
深入理解交叉熵损失CrossEntropyLoss - 对数链接
深入理解交叉熵损失CrossEntropyLoss - 乘积符号在似然函数中的应用链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2113370.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springnboot +uniapp汽车租赁系统

springnboot uniapp汽车租赁系统 手机移动端:主页,租赁汽车展示,汽车租赁,我的租赁记录,还车记录,注册登录,修改个人资料 PC端管理后台:公告管理,用户管理,…

PMBOK® 第六版 项目进度管理知识领域

目录 读后感—PMBOK第六版 目录 提到“进度”,大家都能直观理解其含义。有统计指出,现在项目的延迟交付比例越来越高,并且这一趋势持续上升。造成项目延期的原因是多方面的,常见的原因之一是在项目初期,由于时间充裕&…

Java:方法的使用

一.什么是方法: 在 Java SE 中,方法是类中包含的功能块,它定义了一组执行某些操作的指令。方法用于封装可重复的代码逻辑,并使代码更简洁、易读和易维护。(类似于 C 语言中的 "函数") 二.方法的…

JavaFX基本控件-Button

JavaFX基本控件-Button 常用属性textpaddingalignmenttextAlignmentwidthheighttooltipborderwrapTextellipsisStringunderlinegraphicgraphicTextGapdisable 实现方式Java实现fxml实现 常用属性 text 设置文本内容 button.setText("测试按钮");padding 内边距 butt…

css 个人喜欢的样式 速查笔记

起因&#xff0c; 目的: 记录自己喜欢的&#xff0c; 觉得比较好看的 css. 下次用的时候&#xff0c;直接复制&#xff0c;很方便。 1 设置英语字体: Noto html <link rel"preconnect" href"https://fonts.googleapis.com"> <link rel"p…

[情商-12]:人际交流中倾听的三大层次,十二个小层次, 低情商摆样子;研发人员关注:逻辑层;高情商人关注:情绪、情感、需求、动机

目录 前言&#xff1a; 一、基础层次 二、进阶层次 三、高级层次 总结 前言&#xff1a; 倾听是一个复杂而多维的过程&#xff0c;它不仅仅是耳朵在工作&#xff0c;更是心灵和思维的深度参与。根据不同的理论和观察角度&#xff0c;倾听可以划分为不同的层次。以下是对倾…

AI文献综述神器,有这一款就够了!

我是娜姐 迪娜学姐 &#xff0c;一个SCI医学期刊编辑&#xff0c;探索用AI工具提效论文写作和发表。 当前的AI辅助文献综述的工具有很多&#xff0c;如果说功能最强大的&#xff0c;娜姐无疑要推SciSpace了。 SciSpace利用强大的AI算法&#xff0c;理解并建立研究论文之间的联…

一篇带你速通差分算法(C/C++)

个人主页&#xff1a;摆烂小白敲代码 创作领域&#xff1a;算法、C/C 持续更新算法领域的文章&#xff0c;让博主在您的算法之路上祝您一臂之力 欢迎各位大佬莅临我的博客&#xff0c;您的关注、点赞、收藏、评论是我持续创作最大的动力 差分算法是一种在计算机科学中常用的算法…

C# 通过拖控件移动窗体

目录 引言一、通过控件事件移动窗体1、创建窗体界面2、添加控件事件3、添加代码 二、通过windowsAPI移动窗体1、 构建窗体和添加事件2、代码展示 引言 在C#Form窗体设计中&#xff0c;如果我们不需要使用默认边框设计自己个性化的窗体&#xff08;FromBorderStylenone时&#…

YOLOv8改进 | 模块缝合 | C2f 融合RFCAConv增强感受野空间特征 【二次融合 小白必备】

秋招面试专栏推荐 &#xff1a;深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 &#x1f4a1;&#x1f4a1;&#x1f4a1;本专栏所有程序均经过测试&#xff0c;可成功执行&#x1f4a1;&#x1f4a1;&#x1f4a1; 专栏目录 &#xff1a;《YOLOv8改进有效…

《师兄啊师兄年番2》震撼发布,玄机科技再铸国漫巅峰!

随着秋风送爽&#xff0c;9月6日的优酷动漫发布会无疑为所有动漫爱好者带来了一场视觉与心灵的双重盛宴。其中最引人瞩目的&#xff0c;莫过于《师兄啊师兄年番2》携其全新海报的惊艳亮相&#xff0c;不仅预示着这部备受期待的国漫巨制即将开启全新篇章&#xff0c;更以其独特的…

SpringBoot3.x+MyBatisPlus+druid多数据源配置

1 引言 本章主要介绍SpringBoot3.x多数据源配置&#xff0c;以及在此基础上配置分页拦截&#xff0c;自动填充功等功能&#xff0c;源码链接在文章最后。下面列出几个重要文件进行介绍。 2 项目结构 整体项目结构如下&#xff0c;主要介绍配置文件和配置类。 3 主要代码 …

IstoreOS内网域名解析 修改网页端口

设置了自定义DNS&#xff0c;解析到Istore的IP&#xff0c;安装了1Panel&#xff0c;想用1Panel做域名解析&#xff0c;但是需要80和443端口。 这俩端口被IstoreOS占用了&#xff0c;下面修改 修改网页端口 https://github.com/istoreos/istoreos/issues/47 opkg update opkg…

【每日刷题】Day112

【每日刷题】Day112 &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;每日刷题&#x1f34d; &#x1f33c;文章目录&#x1f33c; 1. 1137. 第 N 个泰波那契数 - 力扣&#xff08;LeetCode&#xff09; 2. 面试题 08.01. 三步问题 - …

Web

关于Web Web是基于HTTP协议进行交互的应用网络Web就是通过使用浏览器/APP访问的各种资源 一个请求对应一个响应 eg. 淘宝网 输入一个url&#xff0c;就会返回一个页面 简单的网站开发 简单代码 package mainimport ("fmt""net/http" )/*http.ResponseWr…

麒麟系统安装GPU驱动

1.nvidia 1.1显卡驱动 本机显卡型号:nvidia rtx 3090 1.1.1下载驱动 打开 https://www.nvidia.cn/geforce/drivers/ 也可以直接使用下面这个地址下载 https://www.nvidia.com/download/driverResults.aspx/205464/en-us/ 1.1.3安装驱动 右击&#xff0c;为run文件添加可…

【Sceneform-EQR】通过sceneform-eqr实现一个视频播放器(使用安卓MediaPlayer实现视频播放)

在前一篇文档中介绍了如何在AR\三维场景创建几种背景 【Sceneform-EQR】scenefrom-eqr中的几种背景实现(不仅用于AR、三维场景&#xff0c;在图片、视频播放器中也适用) 本文将侧重介绍如何使用安卓MediaPlayer实现视频播放。 ↓↓↓↓↓↓↓↓↓↓↓↓ 以下正文 ↓↓↓↓↓↓…

OFDM信号PARP的CCDF图

文章目录 引言代码代码疑难解答参考文献 引言 本书主要参考了文献1&#xff0c;但实际上该书中符号和表述的错误非常多&#xff08;只能说棒子是这样的&#xff09;&#xff1b;同时因为发表时间的关系&#xff0c;很多MATLAB代码进行了更新&#xff0c;原书提供的代码已经无法…

溜狗牵绳行为检测-目标检测数据集(包括VOC格式、YOLO格式)

溜狗牵绳行为检测-目标检测数据集&#xff08;包括VOC格式、YOLO格式&#xff09; 数据集&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1CwLEAKcdlh9hbcBNh_Awdw?pwdiu6b 提取码&#xff1a;iu6b数据集信息介绍&#xff1a; 共有 1980 张图像和一一对应的标注文件…

超声波清洗机哪个品牌比较好一点的?清洁力强的超声波清洗机品牌

随着生活水平的不断提升和幸福感的增强&#xff0c;珠宝、饰品和眼镜等物品已成为许多家庭的常备之物。然而&#xff0c;这些贵重细小的物件易于积聚微尘与隐形细菌&#xff0c;长此以往可能悄悄影响家人的健康&#xff0c;毕竟细菌是肉眼难以察觉的隐患。超声波清洗机应运而生…