建议AI大模型小白必看的学习教程!!

news2024/11/25 17:23:57

逼自己两周刷完 AI大模型(白嫖)

LLM大模型自用资料,以及学习路线整理
整理了我入门大模型的学习路线和自用资料,在全民LLM时期,多输入一些就多一重安全感。建议先对LLM全貌有了解,然后自顶向下去学习。前置知识是nlp基础如transformer,这篇聚焦LLM的学习框架👉🏻

1️⃣ 预训练
🔅模型结构:decoder-only和encoder-decoder模型结构分别适用于什么场景,以及在训练中如何构造数据。建议直接从llama开始,开源社区氛围好。
🔅Scaling Law:用于估算现有资源可以训练多少B模型,以及当前模型的适用数据量。
🔅FlashAttention:了解原理-加速attention,避免多次和显存之间交互耗时。
🔅位置编码RoPE:通过旋转矩阵,实现对长文本的位置编码。
🔅训练框架:deepspeed等模型并行框架

2️⃣ SFT
🔅数据集选择:C-Eval是常用的中文bencmark,MAmmoTH是英文数学应用题
🔅数据配比和质量:LLM时常发生过拟合现象(比如你训练了一个客服问答模型,不管输入什么,它都会输出客服礼貌的语句),因此不能只是用目标任务数据集,需要稍全,同时少量高质量远好于大量含噪声数据。可以参考论文:LIMA: Less is More。
🔅全参数、Lora、p-tuning v2等方法的区别:lora等peft方法是为了在消费级显卡上也能训练、并节约训练时间而产生的,7B模型lora微调在一张v100上也能跑起来。
🔅Loss计算:为了最大化response的影响,一般输入的prompt不计算loss,在这个过程中涉及到mask机制。

3️⃣ RLHF
🔅PPO和DPO算法等

4️⃣ 应用层
🔅RAG:传统搜推的准确搜索能力,为大模型补充领域知识或及时信息。最终模型回答的准确性还是与LLM强相关,召回个人觉得类似于锦上添花,但在一个呆逼LLM上无法起死回生。
🔅Agent:在LLM基础上通过工程方法串联执行器,按照观察->思考->执行的方式,与LLM进行交互
🔅MOE:混合专家模型,多任务能力强

5️⃣ 量化
🔅vLLM,GPT-Q等,通过降低参数精度(fp16 -> int 8 -> int 4)提升推理性能。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2124959.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue3.5正式上线,有哪些新特性和用法?

9月1日, Vue 3.5 正式发布了! 此次要版本不包含重大更改,并且包括内部改进和有用的新功能。我们将在这篇博文中介绍一些亮点 - 有关更改和新功能的完整列表,请参阅 GitHub 上的完整更新日志。 1. Props 解构 在vue3.5 之前&#…

C语言14--作用域与存储期

作用域基本概念 C语言中,标识符都有一定的可见范围,这些可见范围保证了标识符只能在一个有限的区域内使用,这个可见范围,被称为作用域(scope)。 软件开发中,尽量缩小标识符的作用域是一项基本原…

细致刨析JDBC ③ 高级篇

目录 一、JDBC优化及工具类封装 1.现有问题 2.JDBC工具类封装V1.0 3.ThreadLocal 4.JDBC工具类封装V2.0 二、DAO封装及BaseDAO工具类 1.BaseDAO概念 2.BaseDao层代码实现 ① BaseDao层——通用的修改方法 ② 通用的查询方法 ③ 单行查询方法优化 三、事务 1、事务回顾 2.JDBC中…

批量操作Excel的四个方法(求和、移动、对比、合并)

Excel文件肯定少不了保存大量数据,那么在使用excel的时候会不会要大批量数据进行操作?今天分享4个快速使用excel操作的小技巧。希望能够帮大家提高excel制作效率。 技巧一:快速求和 当你想要分别得到行列的总和,我们可以选中表格…

WeChatFerry学习使用

准备 下载软件安装微信 安装python环境 conda create --prefixD:\PythonEnvs\wechatrobotstu python3.10 conda activate D:\PythonEnvs\wechatrobotstu使用 新建python项目 安装依赖包 pip install --upgrade wcferry -i https://pypi.doubanio.com/simple解压dll到一个…

安卓开发板_联发科MTK开发板使用ADB开发

1. ADB 使用 1.1. 前言 ADB,全称 Android Debug Bridge,是 Android 的命令行调试工具,可以完成多种功能,如跟踪系统日志,上传下载文件,安装应用等。 1.2. 准备连接 使用 adb时,你需要&#x…

转到大模型方向来得及吗?

最近不少同学问想搞大模型来得及吗?咨询的同学分成两类,一类是在公司的同学,一类是在校的同学。 第一,对于在校的同学。 一句话,能转到这个方向尽快转。今年校招包括招聘实习生,很多方向比如搜索推荐广告…

敏捷与企业架构:战略联盟

介绍 企业架构的三大支柱是对齐、洞察力和质量。 对齐:企业架构(Enterprise Architecture)使战略与运营、业务需求与IT供应保持一致,并确保这些变化符合企业战略和目标。 洞察力:企业架构提供对组织、信息系统和技术…

基于JavaWeb开发的Java+jquery+SpringMVC校园网站平台设计和实现

基于JavaWeb开发的JavajquerySpringMVC校园网站平台设计和实现 🍅 作者主页 网顺技术团队 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 文末获取源码联系方式 📝 🍅 查看下方微信号获取联系方式 承接各种…

shutil模块详解

shutil模块提供了一系列高级文件操作功能,包括复制、移动、删除和搜索文件或目录。shutil 模块对压缩包的处理是调用 ZipFile 和 TarFile这两个模块来进行的。 下面详细介绍并给出示例代码: 1. shutil.copy(src, dst) 复制文件,但不保留权限…

【程序员必读】如何用AI修复代码Bug,让你节省宝贵的调试时间!

在编程的旅程中,bug就像是我们前行路上的小石子,时不时地绊倒我们。无论你是刚入门的编程新手,还是经验丰富的开发者,调试代码时总会遇到各种各样的挑战。😩 有时候,错误的信息可能模糊不清,令…

SAP PP模块后台配置全流程配置2

1.1.定义工艺路线 定义物料类型分配T-Code:OP50 为物料类型指定工艺路线类型 为物料类型HALF2、FERT2分配类型“路径N” 定义工艺路线CA01 1.1.2.1.定义HAL2类型:物料2000000000工艺路线 输入“物料编码”、“工厂”等信息 工艺路线:抬头信…

国家标准和行业标准有什么区别?如何办理国家标准?

在当今复杂多样的标准体系中,国家标准和行业标准犹如两颗璀璨的明珠,各自闪耀着独特的光芒,它们共同为经济社会的发展提供了坚实的技术支撑。然而,你是否真正了解这两者之间的区别呢? 一、制定主体 • 国家标准&#x…

0基础?没问题!吴恩达教授的《开发者的LLM入门完全指南》来了!

项目:面向开发者的 LLM 入门课程 这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】 ## 项目简介 本项目是一个面向开发者的 LLM 入门教程,基于吴恩达老师大模型系列课…

问题:vite首次加载慢

概述: 不是说vite项目的启动很快很快吗? vite项目的启动确实是快(注意这里的启动是指命令行启动完毕,不是指启动完之后首页加载完毕) 如果某个界面是首次进入,且依赖比较多/比较复杂的话,那…

温习mysql函数 连接查询

字符串 1、CONCAT(S1,S2,...Sn) :字符串拼接,将S1 , S2 , ... Sn 拼接成一个字符串】 2、LOWER(str) :将字符串str全部转为小写 3、UPPER(str) :将字符串str全部转为大写 4、LPAD(str,n,pad): …

基于SpringBoot+Vue+MySQL的教学资源共享平台

系统展示 用户前台界面 管理员后台界面 系统背景 随着信息技术的迅猛发展,教育领域对高效、便捷的教学资源需求日益增长。传统教学模式已难以满足当前教育的多样化需求,特别是在资源共享与利用方面存在明显不足。因此,构建一个基于SpringBoot…

关于大模型在产品开发中所面临的问题,利用大模型技术解决很简单!

“ 具体问题具体分析,大模型技术没有统一的解决方案 ” 有人说2024年是大模型应用的元年,而大模型在未来的发展潜力毋庸置疑,这也就意味着人工智能技术是下一个风口,因此各种各样基于大模型技术的创业公司如雨后春笋般涌现。 从…

Linux云计算 |【第二阶段】SHELL-DAY5

主要内容: awk命令、内置变量(FS、$0、$1、$2、NF、NR)、过滤时机(BEGIN{}、{}、END{})、处理条件(正则、&&、||、~\!~、等)、awk数组、监控脚本、安全检测脚本 一、awk介绍 awk 是一…

【主机入侵检测】Wazuh解码器详解

前言 Wazuh 是一个开源的安全平台,它使用解码器(decoders)来从接收到的日志消息中提取信息。解码器将日志信息分割成字段,以便进行分析。Wazuh解码器使用XML语法,允许用户指定日志数据应该如何被解析和规范化。解码器的…