滑铁卢大学大模型公开课资料来了,大模型入门到精通,非常详细收藏我这一篇就够了

news2024/11/28 22:34:16

今天给大家推荐的是加拿大滑铁卢大学大模型公开课资源,根据QS世界大学排名,其计算机专业排名全球22。

课程内容主要分为五部分:大模型基础、Transformer架构、大语言模型、多模态大模型、智能体。

每一课除了PPT和视频链接,还有相关论文链接。

下面我对每一课内容进行概括总结,同时将内容串联起来帮助大家建立一个知识地图。

Part1:大模型基础

第一课:初识大模型及其应用

能了解多久的过去,就能知道多远的未来。

如果真的想了解大模型,并且参与到由此引发的通用人工智能的讨论,我想有必要先了解下机器学习、深度学习以及AI的历史。

从需要手动提取特征到自动提取特征,从完成单一具体任务到具有通用能力,从监督学习到自监督、强化学习,从RNN、CNN到Transformer。

大模型的发展,离不开模型架构的迭代、训练方式的改进、算力的支撑以及海量数据的加持,更离不开人类对于机器智能孜孜不倦的探索追求。

第三课:RNN & CNN

2012年,AlexNet赢得了ImageNet挑战赛第一名,历史上首次深度学习打败了SIFT+传统机器学习。

在经历两次AI寒冬后,这种模拟人类大脑神经元链接的神经网络让人们再次看到了希望,从此具有自动提取特征并且能够拟合任意复杂函数的神经网络开始登上历史舞台。

在NLP领域,RNN也开始取代了基于统计的方法。

但探索的脚步并没有停止,从RNN到LSTM、GRU再到Transformer;从AlexNet到ResNet再到ViT。

每一次改进都克服了前一代的不足。

从处理表格数据的ANN、处理图像的CNN、处理时序数据的RNN、再到处理图数据的GNN,深度学习开始入侵各个领域,并且多点开花。

第四课:NLP & CV

自从有了能够处理文本和图像的神经网络模型,对于该领域的探索就会勇往直前。

对于智能的探索就是希望机器能够像人一样理解图像和文本。

在CV领域,从一开始简单的图片分类、目标检测、分割,到图像理解,和生成。

在NLP中,从一开始的机器翻译、情感分析,到文本生成。

借助模型架构的迭代、数据的积累、算力的升级,机器的智能越来越强大。

Part2:Transformer架构

第五课:Self Attention & Transformers

前面的RNN以及改进版本都是前Transformer时代的产物,这句话的意思是Transformer比它们都强大。

目前,所有大模型都是基于Transformer架构,其核心是自注意力机制。

这种机制能够让其在经过大量文本预训练后:

不仅知道it指代的是bank,而且bank指的是金融机构而不是河岸。

The bank was near the river, and it offered great financial services.

而且还能知道乔丹是篮球运动员这种事实:

Michael Jordan plays -> basketball.

第六课:Efficient Transformers

道有所能,则必有所不能。

Transformers虽然很强大,但有计算性能问题,在自注意力的计算过程中,随着输入序列长度的增加,计算量呈二次增长(O(n^2))。

根据scaling law,模型的能力与参数量线性相关,所以,为了实现通用人工智能,必须解决计算性能问题。

因此,计算高效的Transformers架构应运而生。

但据我所知,由于Transformer中MLP层占据了2/3的参数,所以由多个小的专家模型来替换MLP层是目前应用比较多的。

第八课:Language Model Pretraining

预训练是让模型在海量数据上进行自监督学习,从而获得通用知识。

自监督学习有两种方式:

一种像Bert那样,随机Mask掉部分词汇,让模型预测被Mask掉的词汇是什么。

另一种像GPT那样,预测下一个词。

第七课:Parameter-efficient Tuning

先来看下ChatGPT的制作过程:先在海量数据上进行预训练得到预训练模型,然后再用有监督数据进行指令微调,最后通过强化学习向人类偏好对齐。

预训练模型具有通用的知识,但它不知道如何响应用户的各种指令(翻译、总结)。

微调让预训练模型具备了这种能力。

微调过程,可以全量更新参数,也可以只更新部分参数,这样就可以在磁盘上只保留一份预训练模型,对于不同的任务,只需要加载不同的参数即可。

CV:这都是我玩剩下的了!!!这不就是迁移学习嘛!

微调是为了让LLM完成不同任务,例如,翻译,chat,总结等等。除了微调,还有一种常用的模式是增量预训练,它解决的是领域问题,例如,llama3擅长英文,但中文效果不好;我们就可以用中文对其进行预训练,再例如,让通用大模型具有医疗领域知识。

Part3:大语言模型

第九课:Large Language Models

有了Transformr这个强大的模型,也知道了如何基于Transformr进行预训练和微调。

接下来就通过它构建一个强大的语言模型吧!

语言模型就是能够理解和生成符合语法和语义的自然语言。

例如,给出上下文让预测缺失的词,或者给出一段文本进行续写等等。

传统的Transformer由一个Encoder和一个Decoder构成。

Bert仅使用了Encoder,由于Encoder的对称性,也就是每个词都会与整个句子的所有词计算注意力,所以适合理解型任务,例如,文本分类,命名实体识别等等。

GPT仅使用了Decoder,由于Decoder的因果性,也就是每个词只会与它前面的词计算注意力,所以适合生成型任务,例如,文本生成,文本摘要等等。

还有一类模型,它同时使用了Encoder和Decoder,例如,T5,MT5等等。

第十课:Scaling Law

是否真的能实现通用人工智?以及多久能实现?对于这样的问题,科技界仍没有达成共识,但坚定的支持者认为这个时间点可能是2047年。

无论是支持还是持否定态度的人,都是基于经验做出的判断。

目前的经验当然来自一些事实:

从GPT3.5到GPT4-o,模型的能力提升有目共睹,而这种能力的提升基本上来自模型参数,算力和数据量的提升。

而Scaling law就是对这种关系的总结。

怀疑AGI的人认为机器智能不可能达到人类的水平,因为人类具有意识。

目前已有的一些事实证明你可以用磁带,磁盘,硬盘,内存存储信息,同样,你可以用晶体管计算机,量子计算机处理信息。

这说明信息的存储和计算都是独立于硬件物质存在的。

对于学习和意识目前也没有证据证明不可以独立于物质层面而存在。

那么具有记忆,计算,学习,意识能力的智能体就不一定需要血肉和C原子,例如硅基生命。

第十一课:Instruction Tuning & RLHF

预训练模型具有通用的知识,但它不知道如何响应用户的各种指令(翻译、总结)。

指令微调让预训练模型具备了响应用户指令的能力。

RLHF则是让大模型向人类喜好对齐,如果真的有超级智能出现,让超级智能的目标与人类一致,可能是唯一选择也是我们急需解决的问题。

但根据对过去文明的观察,高级智能不太可能向低级智能对齐!所以应该寻找比RLHF更高级的方法。

第十二课:Efficient LLM Training

大模型最大的特征就是大!

如果想本地运行llama 70B模型,需要168GB的显存,而训练过程由于要存储梯度和优化器参数等信息,需要的显存是推理过程的两倍。

以目前的GPU配置,单机单卡肯定是不行的,所以就出现了并行训练方法。

典型的有数据并行,pipeline 并行和模型并行,也就是分而治之的策略。

除了并行,还可以用混合精度训练,也就是用FP16代替FP32,用INT8代替FP16,从而减少显存占用。

第十三课:Efficient LLM Inference

大模型的推理效率对于用户体验至关重要,如何能用最小的内存占用,尽快的给出用户答复是推理优化思考的问题。

在内存上,首先想到的是量化技术降低参数内存占用。

其次采用kv-cache避免重复计算。

同时为了提高内存使用效率,避免内存碎片化,page-attention借鉴了操作系统分页内存管理机制。

第十四课:Compress and Sparsify LLM

前面利用参数的精度,内存的管理,缓存技术提升了训练和推理过程的效率。

还有一种方式是从模型入手,改进模型的架构。

由于Transformer中MLP的参数占据了2/3,所以用一种更高效的架构来替换MLP就是一种好的选择,MoE就是利用多个小的专家模型来替换MLP。

第十五课:LLM Prompting

这一课还是大模型优化主题,但这次不需要更改模型,也不是修改参数精度,也不需要微调模型。

这次从Prompting下手,而是让Prompting变的更好,Prompting是人类与大模型交互的唯一方式,Prompting质量的好坏决定了模型的输出质量。

举个例子吧!

前一段时间,大模型对于“9.3比9.11哪个大”的问题集体哑火了,但如果加个“think step by step”就能给出准确答案了。

Part4:多模态大模型

第十六课:Vision transformer

Transformer在NLP中取得了成功,人们迅速将其引入到了CV中,在CV中称之为Vision transformer,简称ViT。

把图像划分成小的patch,类似于nlp中的token。

同样,我可以在ViT上进行预训练,然后再进行微调用于不同的任务,例如,目标检测和分割,或者多模态中用于图像编码器。

第十七课:Diffusion models

扩散模型是当下主流的文本生成图像模型。

扩散模型通过逐步向数据添加噪声并学习如何反向去噪,从而生成与真实数据相似的新样本。

第十八课:Image Generation

对于文本生成图像,除了扩散模型,还有VAE和GAN。

图像生成多样性,图像质量,图像生成效率是综合评估一个模型的三个指标。

第十九课:Multimodal model pre-train

多模态就是模型能输入多重模态,如图像,文本,视频等。

主要分为理解和生成两类任务。

前面讲图像生成,理解任务典型的像视觉问答,基于输入图片进行问答。

多模态主要包括图像编码器和文本编码器,还有一个多模态融合模块。

多模态融合让两个原本不是同一个世界的人,可以进行交流。

多模态开山之作是CLIP,分别用VIT和Transforner Encoder对图像和文本进行编码,然后通过对比学习,也就是计算正负图像文本对向量点积,来让正样本拉进,负样本疏远。

到这个简单的融合模块有点弱。

后续模型基本上就是增强融合模块能力,例如,用Transforner Encoder。

为了能够生成文本,也增加了Transforner Decoder。

第二十课:Large Multimodal model

当前大语言模型就有很强的语言理解和生成能力,具有in context few-shot推理能力,那能不能利用这些LLM资源呢?

视觉编码器用预训练好的ViT模型,例如BeiT,如果训练过程中参数保持不变,直接将视觉编码器的输出给LLM肯定不是对齐的,那如何实现多模态的融合?要么微调ViT的参数,要么中间加一个Adapter。Flamingo选择冻结大语言模型以及视觉预训练模型参数,然后通过加一个Adapter实现模态之间的对齐。

Part5:智能体

第二十一课:Tool Augmentation

大模型是被动式的一问一答,我们需要的智能体是主动的,还能执行决策的,不光是只输出文本,这就要求能访问外部工具的能力。

例如,作为一个网络安全智能体,当检测到威胁后,能够发邮件预警。

一个理财智能体,当检测到机会后,能自动买入股票。

第二十二课:Retretal Augmentation

大模型有时会出现幻觉问题,就是说着说着就跑调了,文不对题了。

你当然可以通过增加模型参数,增加训练数据去改善这个问题。

但目前有个低成本的方案,就是检索增强生成。

例如,先针对用户输入内容搜索互联网,然后再对检索到的内容进行总结。

也可以用自己内部资料制作向量检索数据。

在这里插入图片描述

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2218818.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

013_django基于大数据的高血压人群分析系统2024_dcb7986h_055

目录 系统展示 开发背景 代码实现 项目案例 获取源码 博主介绍:CodeMentor毕业设计领航者、全网关注者30W群落,InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者,博客领航之星、开发者头条/腾讯云/AW…

VScode实现服务器免密登录(亲测有效)

目录 1 免密步骤1.1 在本地生成密钥1.2 在vscode中下载Remote-SSH1.3 配置SSH文件1.4 在服务器中添加本地公开密钥1.5 远程免密连接试验 2 后记 1 免密步骤 1.1 在本地生成密钥 window R打开命令面板 ssh-keygen1.2 在vscode中下载Remote-SSH 1.3 配置SSH文件 本地密钥的文…

Java 入门基础篇14 - java面向对象思想以及特性

学习目标: 一、目标 面向对象思想类和对象对象的创建和使用属性和方法封装 开始学习: 二、编程思想 2.1 什么是编程思想 做人有做人的原则,编程也有编程的原则。这些编程的原则,就叫做编程思想。 2.2 面向过程和面向对象 二…

卡尔曼讲解与各种典型进阶MATLAB编程(专栏目录,持续更新……)

专栏链接:https://blog.csdn.net/callmeup/category_12574912.html 文章目录 专栏介绍重点文章卡尔曼滤波的原理卡尔曼滤波的例程 进阶MATLAB编程后续更新 专栏介绍 本专栏旨在深入探讨卡尔曼滤波及其在各类应用中的实现,尤其是通过MATLAB编程进行的典…

C++实现 对象移动 移动语义(什么是右值引用)

右值引用 为了支持移动操作,C11增加了右值引用。 使用&&来定义 //int &num100;//错误的使用方法,引用不能引用常量int &&num100;//正确的//同样 int b10; //int &mb*93;//错误的 int &&mb*93;//正确的//当然&#xff0…

什么是DevOps,如何才能获取DevOps相关实践

DevOps 是 “Development”(开发)和 “Operations”(运维)的缩写,代表一种融合开发和运维的文化和实践。它强调开发团队与运维团队的协作,通过自动化流程和持续交付,提高软件交付的速度、质量和…

通过Express + Vue3从零构建一个用户认证与授权系统(三)前端应用工程构建

前言 接下来,我们将使用 Vue 3、TypeScript 和 Vite 构建一个前端应用,与之前构建的后端 API 无缝对接。此前端将处理用户认证、显示用户数据、管理角色和权限,并确保与后端的安全通信。首先,我们来构建一个满足基本开发的前端应…

Spring6梳理14——依赖注入之P命名空间

以上笔记来源: 尚硅谷Spring零基础入门到进阶,一套搞定spring6全套视频教程(源码级讲解)https://www.bilibili.com/video/BV1kR4y1b7Qc 目录 ①搭建模块 ②引入配置文件 ③创建bean-dip.xml文件 ④创建课程类文件 ⑤创建学生…

【C++】string类(2)

🥳个人主页: 起名字真南 🥳个人专栏:【数据结构初阶】 【C语言】 【C】 目录 引言1 模拟实现string类基本框架2 实现string类中的主要成员函数2.1 Push_Back 函数2.2 reserve 函数2.3 append 函数2.4 c_str 函数2.5 begin ,end 函数2.5 operator 函数2.6…

FileLink内外网文件交换——致力企业高效安全文件共享

随着数字化转型的推进,企业之间的文件交流需求日益增加。然而,传统的文件传输方式往往无法满足速度和安全性的双重要求。FileLink作为一款专注于跨网文件交换的工具,致力于为企业提供高效、安全的文件共享解决方案。 应用场景一:项…

Python酷玩之旅_数据分析入门(matplotlib)

导览 前言matplotlib入门1. 简介1.1 Pairwise data1.2 Statistical distributions1.3 Gridded data1.4 Irregularly gridded data1.5 3D and volumetric data 2. 实践2.1 安装2.2 示例 结语系列回顾 前言 翻看日历,今年的日子已划到了2024年10月19日,今天…

网络空间安全之一个WH的超前沿全栈技术深入学习之路(一:渗透测试行业术语扫盲)作者——LJS

欢迎各位彦祖与热巴畅游本人专栏与博客 你的三连是我最大的动力 以下图片仅代表专栏特色 [点击箭头指向的专栏名即可闪现] 专栏跑道一 ➡️网络空间安全——全栈前沿技术持续深入学习 专栏跑道二➡️ 24 Network Security -LJS ​ ​ ​ 专栏跑道三 ➡️ MYSQL REDIS Advanc…

vue登录页面

这里写目录标题 登录业务流程表单如何进行校验自定义校验规则整个表单的统一内容校验 封装登录接口axios的二次封装整个项目api的统一管理 调用接口 登录业务流程 表单如何进行校验 ElementPlus表单组件内置了表单校验功能,只需要按照组件要求配置必要参数即可 1.…

【880线代】线性代数一刷错题整理

第一章 行列式 2024.8.20日 1. 2. 3. 第二章 矩阵 2024.8.23日 1. 2024.8.26日 1. 2. 3. 4. 5. 2024.8.28日 1. 2. 3. 4. 第四章 线性方程组 2024.9.13日 1. 2. 3. 4. 5. 2024.9.14日 1. 第五章 相似矩阵 2024.9.14日 1. 2024.9.15日 1. 2. 3. 4. 5. 6. 7. 2024.9.…

蚂蚁华东师范大学:从零开始学习定义和解决一般优化问题LLMOPT

🎯 推荐指数:🌟🌟🌟 📖 title:LLMOPT: Learning to Define and Solve General Optimization Problems from Scratch 🔥 code:https://github.com/caigaojiang/LLMOPT &am…

YOLOv11改进-卷积-空间和通道重构卷积SCConv

本篇文章将介绍一个新的改进模块——SCConv(小波空间和通道重构卷积),并阐述如何将其应用于YOLOv11中,显著提升模型性能。为了减少YOLOv11模型的空间和通道维度上的冗余,我们引入空间和通道重构卷积。首先,…

如何开启华为交换机 http

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目…

pc轨迹回放制作

亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢! 课程主题:pc轨迹回放制作 主要内容:制作车辆轨迹操作页,包括查询条件、动态轨迹回放、车辆轨迹详情表单等 应用场景:车辆…

14.归一化——关键的数据预处理方法

引言 在人工智能(AI)和机器学习中,归一化(Normalization)是一个重要的预处理步骤。它的主要目的是将数据转换到某个特定的范围。归一化可以帮助模型更高效地学习和提高预测的准确性。归一化在数据预处理方法中占据核心…

Jupyter Notebook中 Save and Export Notebook As不显示选项

问题 Jupyter Notebook中 Save and Export Notebook As 不显示选项(保存和导出没有选项) 解决 在jupyter notebook所在环境卸载jupyter_contrib_nbextensions,这是我之前安装的一个扩展工具集,从而导致上面的问题。 pip unin…