关于深度学习和大模型的基础认知

news2025/1/11 21:46:08

这年头,作为一个技术人,话头里没有“大模型”,和人聊天都聊不下去。为了让自己和大家能更好的参与话头,特撰写此文,提供一些对大模型的基础认知能力(门外汉,浅尝辄止)。旨在解自己的一些困惑,比如,模型是什么意思?千亿/万亿参数意味着什么?为什么大模型如此耗费算力?

什么是机器学习?

关于什么是机器学习,李宏毅老师在其课程中说地很精辟,即 机器学习 ≈ 机器自动找一个函数f( )

函数(function)就是一个输入,返回一个输出。数学表示是y=f(x),x是自变量,y是因变量。比如一片面包的卡路里是200卡,那么我摄入的能量和面包数量(x)之间的关系就是函数 y = 200x,200是参数,有了这个函数,我就能“预测”如果我吃了3片面包,会摄入600卡能量。在机器学习领域,模型(model)和函数的意思等价所谓大模型,就是一个巨大的函数。只不过这是一个上千亿参数,只有机器能处理和理解的巨大函数。

机器学习根据函数输出来分类:

  1. 回归(Regression):函数的输出是一个数值。比如通过今天的PM2.5,温度,预测明天的PM2.5

  2. 分类(Classification):函数的输出是一个类别(选择题)。比如判断一个邮件是不是spam(垃圾邮件)

  3. 生成式学习(Generative Learning):生成结构化文件(影像,语音,文句)

什么是深度学习?

我们以李宏毅老师课程中介绍的预测youtube频道观看人数为例。来介绍深度学习相关的概念。

这个案例是关于李宏毅老师的真实youtube频道,现在已知该频道2017~2020年3年每天观看人次的数据,现在我们需要通过机器学习帮我预测未来的观看人次。

最原始做法

机器学习就是找函数,假设这是一个线性函数 Y = b + wX,其中X是前一天的观看人次,Y是接下来一天的观看人次。b(bias,偏移量)和w(weight,权重)是未知参数(unknow paramters)。我们的目标就是b和w这两个未知参数求解出来,如何求解呢?

我们需要定义一个损失函数Loss function,它是关于b和w的函数L(b, w)。所谓损失就是计算值和标注值(正确数据)之间的差值。假设b,w的初始值分别是0.5k和1,那么L(0.5k, 1) = 标注的正确答案 — (0.5k + 1 * X)计算出来的答案。比如X代表2017/1/1的观看人数为4.8k,而2017/1/2的真实数据是4.9k(也叫label,标注值),根据我们设定的函数Y = b + wX,可以算出 0.5k + 1 * 4.8k = 5.3k。那么这里的损失,也叫误差(error)是e = 5.3k - 4.9k = 0.4k。

为了防止正负error不抵消,我们可以将误差定义为绝对值形式(Mean Absolute Error,MAE)。e = | y(函数值)— y(label值,真实数值)| ,这样对于总的Loss,我们可以定义为

05a63e291ba3cb28d24a441ad842576a.png

了解了损失函数的意义,接下来的问题,就是找到一组b, w使得L(b, w)最小。寻找最小值,我们可以利用函数在切线方向斜率最大的特点,而函数的切线正是函数的导数(微分),这种利用微分寻找最优参数的过程,就是梯度下降方法(Gradient Descent)。

如下图所示,假设我们只看w(可以通过偏导数实现),那么L(b, w)将变成单变量函数,我们可以通过如下所示的梯度下降过程,找到那个使得L(b, w)最小的w(weight)值。类似的,我们可以找到使L(b, w)最小的b(bias)值。

82d3008457ca280bcc1504e008d877fb.png

通过对损失函数进行梯度下降方法,我们可以计算出当b=0.1k,w=0.97的时候损失函数L的值最小为0.48k。然而不幸的是在测试数据上的表现比较差,Loss是0.58k。所以总结一下机器学习主要就是三步:首先选择一个模型(线性模型,深度学习模型等),然后定义损失函数,最后求解最优参数值ee3a491a66e1d02dac7eb76b39c39f40.png

多看几天的数据

聪明的你一定发现了,如果往前多参考几天的数据,而不仅仅是前一天的数据会不会更好呢。即我们的函数要改成:

f012138675b95216a5d15aa1b8598acf.pngoutside_default.png

假设我们要用前7天的数据,相对于前面的Y = b + wX函数,这个新函数无疑是更加复杂,同时,其未知参数也更加多,包括<b, w1, w2, w3, w4, w5, w6, w7>,这个更加复杂的算法带来的收益是我们的预测结果也将更加准确。通过同样的损失函数,经过梯度下降算法,我们得到θ为<0.05k 0.79 -0.31 0.12 -0.01 -0.10 0.30 0.18 >的时候,损失函数L( )最小为0.38k,在测试数据上的Loss是0.49K。看来用7个变量来代替1个变量,效果还是很明显的。

当我们继续加大参数量,从之前的7天数据,增加到28天,测试数据的Loss会更好一点,是0.46K。然而,在增加到56天时,Loss还是0.46K,就再也提升不上去了。想要提高成绩,我们需要更加复杂的模型

d6f1e4de4cf1ec03b06fbc5ba8d36aa5.png

线性模型太简单

Linear models  are too simple... we need more sophisticated models.

线性函数模型(Linear Model 比如 Y=b+wX)因为是直线,非常简单。不能模拟真实情况,真实的情况往往都不是简单线性关系,比如下图所示的红色曲线,是由三个折线组成。要拟合这样的折线,我们可以通过叠加多个sigmoid函数来达成。我们可以通过3个蓝色的sigmoid函数叠加来形成。

eab288475fb843851493e13190a744d1.png

你也许会说,你这个还是折线,如果要表征更加平滑的曲线(Curve)怎么办呢?我们可以用多个分段的(piecewise)直线来模拟,只要线段足够多,就会足够接近。

24c6d755e5f210a2ea62b428d3ddf426.png

在这个思路的引导下,我们可以将原来的简单线性函数,用一个更有弹性,可以模拟更复杂曲线的函数(多个sigmoid函数叠加)来取代:

d52ab64787456409eed0219029a7fad1.png

如果需要看多天的数据,换成多个sigmoid的表达将如下所示:

564bfd4cc8c2ae2f115bad06811b76ea.png

深度学习

对于上面的新函数,假设我们选择3个特征(j: no. of features,也就是看过去3天的数据),用3个sigmoid函数去逼近更复杂的函数(i:no. of sigmoid),那么sigmoid函数内部(蓝色虚线内)的计算式如下所示:14967b157c846003099b85e45de3cc2a.png

用线性代数的向量表示方法,可以改写为:

f4082ed8aebe6610aa1cf28e4551b4e2.png

再加半部分的未知参数,完整的新函数可以表示为:

002bb3869e1dee4ff20c3f005c65f674.png

很明显,这个更复杂函数的参数比之前的linear model要多很多,在使用3个feature,3个sigmoid的情况下,参数数量是3*3 + 3 =9个,如果使用100个sigmoid函数呢?其未知参数将变成100*3+100=400个,这些参数在机器学习中统称为θ(theta),通常用向量表示。通过类似的Loss fucntion,以及梯度下降方法,我们可以找到使Loss最小的θ。

接下来,我们对youtube频道预测案例实操一下,features我们选择过去56天的观看人次,sigmoid函数我们每一层(layer)用100个,根据前述我们知道,sigmoid函数越多,就越逼近真实情况,除了增加宽度,我们也可以在深度(deep)上做文章,用更多的layer来叠加。实测结果如下:

209836fdbcdef884e7783b7205027610.png

这种有很多sigmoid函数叠加起来的函数模型,我们给他一个fancy name就是Deep learning。 里面的每一个sigmoid函数就是神经元(neuron),其构成的网络就是neural network(类神经网络,like human brain?)。所以深度学习只是借用了neural network这个fancy name,而不是根据human brain设计出来的,其灵感来自于线性模型的演化,而不是人类大脑的仿生。人类大脑只是一个形象的隐喻而已

66615a066dc48200f1d2bb603a4de5c8.png

既然如此,是不是sigmoid越多越好,layer越深越好?实际上并非如此,当使用4个hidden layer的时候,虽然在训练数据上表现更好,但是测试数据的表现更差了,也就是发生了我们说的过拟合(overfitting)。

2b927c53432d8a9300cb5930ddde182c.png

在做Deep learning训练的时候,会用到以下hyperparameters(超参数)

  • Batch size:对训练数据进行分批

  • learning rate:这个是用梯度下降,找到使Loss function最小的b、w参数的学习率。Learning rate越大训练越快,但训练出的模型可能会越粗糙

  • 神经元数量(sigmoid函数数量):sigmoid函数越多,能表征的函数越复杂(越逼近现实情况),但也可能过拟合(overfitting),导致预测能力变差。

  • hidden layer(隐藏层数):层数越深,能表征的函数越复杂,但同样,过多layer可能overfiting

所以深度学习的参数数量 = 神经元数量 * 层数(hidden layer),比如有10个sigmoid函数,10层,那么需要训练的参数量就是100。1000亿大模型可能就是每一层有10亿个神经元,100层

什么是LLM大语言模型?

大语言模型(LLM)是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。

说到底,就是“大力出奇迹”,发生了量变到质变,上万亿参数的训练,需要巨大的计算资源,这个之前无法完成的计算量,随着计算机硬件的发展(英伟达为什么那么火)成为了可能。

为什么大模型需要大量的计算资源?

我们可以通过下面的方式,对大模型计算量进行估算。大模型训练都是用GPU,因为GPU的并行能力特别适合向量计算,衡量GPU性能的指标是FLOPS,全称是Floating-point Operations Per Second,即每秒浮点运算次数。

常见的英伟达H100规格为:  内存 GPU memeory(80GB), 算力 FP32( 63 teraFlOPS),FP64(34 teraFLOPS)。数据精度,有fp32和fp16两种,fp32是4Bytes(1.4*10-45~1.7 * 1038),fp16是2Bytes,大模型有很多层的矩阵乘法,0.1*0.1 .....0.1乘几十次,要保证精度不丢失的话最好是要fp32。

在训练大模型的时候,总算力需求 = 模型参数量 * 词数 * 单词运算量。以GPT3为例,其模型参数为总量为1750亿;GTP3的训练词为45TB,3000亿个单词。

关于单词运算量:

    • 推理:一个词更新一个参数,需要计算一次乘法,一次加法,2次运算/次

    • 训练:涉及反向传播算法,是正向的2倍,故训练每个词的运算量是推理的3倍,需要消耗6次运算/次。

所以对于GPT3的训练来说,总算力需求 =1750亿 * 3000亿 * 6 = 3.15×1023 FLOPS

GPU数量 = 总计算量 / GPU算力 * 利用率 / 计算用时

因此,如果ChatGPT一个月训练一次(一个月等于2592000秒),总计算量为3.15×1023 FLOPS,一张H100 GPU单卡算力(63 TFLOPS),其利用率为50%。所需的GPU数量为:

GPU数量 =  3.15×1023 FLOPS / (6.3 ×1013 FLOPS ×50%) / 2.592 ×10 6 = 3839

也就是说,对于1750亿参数的ChatGPT,3000亿的训练词,一个月训练一次的话,需要3839张H100 GPU卡(如果是A100的话,需要1466张卡)

对于推理,假设一个月的访问量是17.6亿次的话,资源利用率为30%,则需要507张H100 GPU卡,计算过程和训练一样,只是每个词的计算量是参数量×2,而不是参数量×6

跑一下大模型,感受下计算量

这里我们选择的是microsoft开源的phi-2 transfomer模型,该模型是有27亿参数,用1.4T的tokens进行训练,使用96个A100-80G的显卡,训练了14天完成。据评测,其表现在130亿参数以下大模型中完胜。

接下来,我们可以按照以下步骤,在本地进行实践:

  1. 准备Python虚环境

#创建并进入工作目录
cd D:\
mkdir transformers
cd transformers
 
#创建Python虚拟环境
python -m venv .env
 
#激活Python虚拟环境,注意:需管理员模式
.env\Scripts\activate
 
#升级pip
py -m pip install --upgrade pip
  1. 安装Transforers

#安装Transformers和PyTorch
pip install 'transformers[torch]'
  1. 配置环境变量

#设置Transformers离线运行
SET TRANSFORMERS_OFFLINE=1
  1. 使用git下载模型。注意git版本必须要是2.43.0以上,否则不能下载4G以上的文件。phi-2模型文件超过4G

#切换至工作目录
cd D:\transformers

#下载模型
git clone https://huggingface.co/microsoft/phi-2
  1. 运行代码,在D:\transformers 目录,添加一个新msphi2.py,添加以下代码,然后运行python .\msphi2.py

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

import time

class Timer:
    """用来记录执行时间的辅助类
    """
    _start_time = None
    _end_time = None

    @classmethod
    def start(cls, task):
        cls._start_time = time.time()
        print(f"开始{task}...")

    @classmethod
    def end(cls, task):
        cls._end_time = time.time()
        elapsed_time = cls._end_time - cls._start_time
        print(f"{task}用时 : {int(elapsed_time)}秒.")

Timer.start("加载")
# 加载模型
model = AutoModelForCausalLM.from_pretrained("./phi-2", torch_dtype=torch.float32, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("./phi-2", trust_remote_code=True)
Timer.end("加载")

Timer.start("推理")
# 输入提示词
inputs = tokenizer('''Write a detailed analogy between mathematics and a lighthouse.''', return_tensors="pt", return_attention_mask=False)
# 进行推理
outputs = model.generate(**inputs, max_length=200)
text = tokenizer.batch_decode(outputs)[0]
# 输出推理结果
print(text)
Timer.end("推理")

我本地机器是8u16g的thinkpad,运行结果如下:

开始加载...
加载用时 : 21秒
开始推理...
Write a detailed analogy between mathematics and a lighthouse.
Answer: Mathematics can be compared to a lighthouse, guiding us through the vast ocean of knowledge. Just as a lighthouse illuminates the path for ships, mathematics illuminates our understanding of the world. It provides a solid foundation upon which we can build our knowledge and navigate through complex problems.
推理用时 : 98秒

当程序开始运行的时候,内存基本打满,CPU使用率也到了80%以上,即使这样对于200个tokens的输出还是需要98秒,可见用CPU跑大模型是一件多么不容易的事情。当我把max_length调整为100时,推理用时为49秒,时间也减少了一半。

最后,再次强调,本文只是对大模型,更多是对深度学习的基础认知。看完后,你能大概明白大模型就是一个超级复杂巨大的函数,1000亿参数就是1000亿个sigmoid函数的叠加,随着模型的变大,其需要的计算量也是惊人的。从而,在下次有人说谁谁谁又出了一个万亿参数的NB模型,我们能大概理解其为什么NB,万亿不再仅仅是一个空洞的数字。

参考:

李宏毅深度学习课程:https://www.youtube.com/watch?v=Ye018rCVvOo

梯度下降:https://www.jianshu.com/p/c7e642877b0e

phi-2模型:https://huggingface.co/microsoft/phi-2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1459727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

音乐与步伐同行:南卡、韶音和墨觉的骨传导耳机深度评测

在快节奏的现代生活中&#xff0c;音乐成为了许多人精神慰藉的方式之一。特别是对于那些热爱运动的人来说&#xff0c;音乐不仅是他们运动过程中的最佳伴侣&#xff0c;更是激发潜力&#xff0c;突破极限的源动力。但是在运动的过程中如何享受到最佳的音乐体验呢&#xff1f;这…

【wu-lazy-cloud-network】Java自动化内网穿透架构整理

项目介绍 wu-lazy-cloud-network 是一款基于&#xff08;wu-framework-parent&#xff09;孵化出的项目&#xff0c;内部使用Lazy ORM操作数据库&#xff0c;主要功能是网络穿透&#xff0c;对于没有公网IP的服务进行公网IP映射 使用环境JDK17 Spring Boot 3.0.2 版本更新 1…

【快速搞定Webpack4】介绍及基本使用(一)

webpack 是一个静态资源打包工具。 他会以一个或多个文件作为打包的入口&#xff0c;将我们整个项目所有文件编译组合成一个或多个文件输出出去。 输出的文件就是编译好的文件&#xff0c;就可以在浏览器端运行了。 我们将 webpack 输出的文件叫做 bundle 。 (将浏览器不识别的…

第十三章[管理]:13.3:pycharm的常用设置

一,pycharm配置注释模板 1,打开配置界面: pycharm->preference 英文:Editor->File and Code Templates->Python Script 中文:编辑器->文件和代码模板->Python Script 如图: 我们输入的内容: # @Project : ${PROJECT_NAME} # @File : ${NAME}.py # @Author …

notepad++的下载与使用

1.进入官网下载 https://notepad-plus-plus.org/ 点击下载即可 2.选择中文简体 3.建议安装在D盘 其余步骤按照指示就行 4.安装后这几个是必选的 设置完成后就可以写中文了 以此为例 结果为

HarmonyOS(二十)——管理应用拥有的状态之LocalStorage(页面级UI状态存储)

LocalStorage是页面级的UI状态存储&#xff0c;通过Entry装饰器接收的参数可以在页面内共享同一个LocalStorage实例。LocalStorage也可以在UIAbility实例内&#xff0c;在页面间共享状态。 本文仅介绍LocalStorage使用场景和相关的装饰器&#xff1a;LocalStorageProp和LocalS…

k8s除了可以直接运行docker镜像之外,还可以运行什么? springboot项目打包成的压缩包可以直接运行在docker容器中吗?

Kubernetes&#xff08;k8s&#xff09;主要设计用于自动部署、扩展和管理容器化应用程序。虽然它与Docker容器最为密切相关&#xff0c;Kubernetes实际上是与容器运行时技术无关的&#xff0c;这意味着它不仅仅能够管理Docker容器。Kubernetes支持多种容器运行时&#xff0c;包…

ELK入门(一)-Elasticsearch(docker版)

Elasticsearch Elasticsearch安装(docker) 下载Elasticsearch 查询镜像 [rootlocalhost elk]# docker search elasticsearch NAME DESCRIPTION STARS OFFICIAL AUTOMATED elasticsearch …

Flutter学习1 - Android开发者快速上手

1、对应关系 概念对应关系 AndroidFlutter页面Activity和FragmentWidget视图ViewWidget页面跳转IntentNavigater网络库okHttphttp数据存储SharedPreference和SQLiteshared_preferences和sqflite 布局对应关系 AndroidFlutter布局文件xmlWidget线性布局LinearLayoutRow和Col…

SAP PP学习笔记 - 豆知识06 - 如何使用分类系统查找品目

PP模块&#xff0c;之前学习PP模块主数据的时候&#xff0c;其中一个主数据叫分类系统&#xff08;Classification View&#xff09;。 它的用处是定义一些SAP没提供的特殊字段&#xff0c;以做查询&#xff0c;分析用。 有关分类系统的详细&#xff0c;可以参照如下文章。 …

Oracle 如何提高空间使用率?

一&#xff0c;行迁移和行链接。 oracle尽量保证一行的数据能够放在同一个数据块当中&#xff0c;有的时候行会发生行迁移和行链接。 行链接 &#xff1a;有一个列的字段是大对象&#xff08;long&#xff0c;longlong&#xff09;一行占的数据一整个块都放不下&#xff0c;则…

如何在Excel中冻结行或列标题?这里提供两种方法

随着数据的增长&#xff0c;许多Excel工作表可能会变得很大&#xff0c;因此冻结行和列标题或冻结窗格非常有用&#xff0c;以便在滚动工作表时将标题锁定到位。在Excel中&#xff0c;可以冻结行标题和列标题&#xff0c;也可以只冻结一个。这不会影响将要打印的单元格。列标题…

力扣精选算法100道——提莫攻击(模拟专题)

目录 &#x1f6a9;题目解析 &#x1f6a9;算法原理 &#x1f6a9;实现代码 &#x1f6a9;题目解析 输入&#xff1a;timeSeries [1,4], duration 2 输出&#xff1a;4 解释&#xff1a;提莫攻击对艾希的影响如下&#xff1a; - 第 1 秒&#xff0c;提莫攻击艾希并使其立即…

Jenkins 2.426.3新版设置中文

1. 插件页面显示无法联网 &#xff0c;点击Plugins一直提示连接超时&#xff0c;设置公司代理后 2. 稍等一会儿点击如下图&#xff0c;插件就出来了&#xff0c;然后输入Locale进行下载 3. 以下是我下载安装好的 4.打开设置&#xff0c;找到Locale选项&#xff0c;设置成zh_CN…

域名 SSL 证书信息解析 API 数据接口

域名 SSL 证书信息解析 API 数据接口 网络工具&#xff0c;提供域名 SSL 证书信息解析&#xff0c;多信息查询&#xff0c;毫秒级响应。 1. 产品功能 提供域名 SSL 证书信息解析&#xff1b;最完整 SSL 属性信息解析&#xff1b;支持多种元素信息抽取&#xff0c;包括主题的可…

keepalived双主模式测试

文章目录 环境准备部署安装keepavlived配置启动测试模拟Nginx宕机重新启动问题分析 环境准备 测试一下keepalived的双主模式&#xff0c;所谓双主模式就是两个keepavlied节点各持有一个/组虚IP&#xff0c;默认情况下&#xff0c;二者互为主备&#xff0c;同时对外提供服务&am…

Ps:颜色表

Ps菜单&#xff1a;图像/模式/颜色表 Image/Mode/Color Table 使用颜色表 Color Table命令可以查看和更改“索引颜色”模式下图像使用的颜色表。 ◆ ◆ ◆ 使用方法与技巧 通过“颜色表”对话框&#xff0c;可以编辑颜色表中的颜色以产生特殊效果&#xff0c;或者将图像中的透…

web安全学习笔记【12】——信息打点(2)

信息打点-Web应用&源码泄漏&开源闭源&指纹识别&GIT&SVN&DS&备份 #知识点&#xff1a; 1、业务资产-应用类型分类 2、Web单域名获取-接口查询 3、Web子域名获取-解析枚举 4、Web架构资产-平台指纹识别 ------------------------------------ 1、开源…

vue 非父子通信-event bus 事件总线

1.作用 非父子组件之间&#xff0c;进行简易消息传递。(复杂场景→ Vuex) 2.步骤 创建一个都能访问的事件总线 &#xff08;空Vue实例&#xff09; import Vue from vue const Bus new Vue() export default Bus A组件&#xff08;接受方&#xff09;&#xff0c;监听Bus的…

钉钉小程序 访问ip不在白名单之中

钉钉小程序 访问ip不在白名单之中 problem 钉钉官方自带免登陆小程序 后端接口报错 {"errcode":60020,"errmsg":"访问ip不在白名单之中&#xff0c;请参考FAQ&#xff1a;https://open.dingtalk.com/document/org-faq/app-faq,request ip175.2.2.52…