大模型入门0: 基础知识

大模型入门0: 基础知识

news2026/2/11 13:29:53

transformer
scaling law
分布式训练

自然语言处理包括几大任务

NLP: 文本分类，词性标注，信息检索
NLG：机器翻译，自动摘要，问答QA、对话机器ChatBot
下游任务: 词性标注（POS），句法分析（DP），命名实体识别（NER）和自然语言推理（NLI）,文档摘要，跨语种翻译，自然语言推理与情感分类

Transformer

几大范式

BERT
- 预训练，MLM, NSP
- 下游任务：通过finetune实现分类, NER, 句子相似度, 问答系统等
GPT
- 预训练, Next token prediction
- 下游任务: Prompting实现文本生成，语言翻译，对话生成，摘要生成等
T5
- 预训练任务: span corruption

T5

Bert

GPT

请添加图片描述

下游任务, 相比BERT对下游任务需要参数微调的代价，GPT3提出的prompt design, 通过instruction+prompt进行下游任务无需任何额外操作。后续Preﬁx-tuning: Optimizing continuous prompts for generation提出了prompt tuning效果更好
in context learning: (few shot prompting, zero-shot transfer) 不需要进行参数更新，在模型inference阶段，为了让模型的能力迅速迁移到某个特定task，先给一些参考样例，模型就迅速领会，也就是example放在context里，模型从context领会，也就可以按照这个例子里的task输出了 .
instruction learning：更符合人类表达习惯的方式与LLM交互

GLM

大模型

大模型时代，则需要重点关注其zero-shot，few-shot，推理等能力。NLG通过prompt也能够实现NLU任务，主线逐渐变成了NLG任务。

PaLM: Pathways Language Model

数据
评测
模型
效果

Flan

LLama

scaling law

大模型时代，很多观念都需要更新了。scaling地方在于数据量，任务量，模型参数量。

分布式训练

分布式通信库：CPU上用MPI，GPU上用NCCL
点对点通信(Point-to-point Communication, P2P): 两个节点间通信，集合通信(Collective Communication, CC)：一组节点内通信
数据并行(DP)、模型并行(TP)、流水线并行(PP)
流水线并行: Gpipe,
- 模型的拓扑序，切分成p段，每一段为一个stage
- mini-batch进一步切分为几个大小的micro-batch
zero使用的几个阶段

reference

Gpipe-如何有效地阅读PyTorch的源代码？ - OpenMMLab的回答 - 知乎
[Transformer 101系列] LLM分布式训练面面观 - aaronxic的文章 - 知乎
预训练语言模型之GPT-1，GPT-2和GPT-3 - 大师兄的文章 - 知乎
Prompt Tuning 相比于 Fine Tuning 在哪些场景下表现更好？ - hibo的回答 - 知乎
面对“大模型+大规模预训练+重视SOTA的审稿人”，AI科研除了轻量化还有什么出路？ - codebird的回答 - 知乎
UL2: Unifying Language Learning Paradigms
2024年，AI的机会在行业大模型吗？ - 段淇源的回答 - 知乎
浅谈后向传递的计算量大约是前向传递的两倍 - 回旋托马斯x的文章 - 知乎

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1349286.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

计算机网络（1）

计算机网络（1）

计算机网络（1） 小程一言专栏链接: [link](http://t.csdnimg.cn/ZUTXU) 计算机网络和因特网（1）因特网概念解读服务常见的服务协议网络边缘特点强调网络核心特点强调小程一言我的计算机网络专栏，是自己在计算机网络…

阅读更多...

Django开发3

Django开发3

Django开发3 Django开发编辑用户9.靓号管理9.1 表结构9.2 靓号列表9.3 新建靓号9.4 编辑靓号9.5 搜索手机号9.6 分页 10.时间插件11.ModelForm和BootStrap操作各位小伙伴想要博客相关资料的话关注公众号：chuanyeTry即可领取相关资料！ Django开发部门管…

阅读更多...

simulink代码生成（五）——ePWM模块初级应用

simulink代码生成（五）——ePWM模块初级应用

前面分别讲到了SCI及ADC的配置及使用，现在梳理一下ePWM的配置和使用； 先打一些基础的DSP28335的基础知识； F28335 关于ePWM中断与SOC采样信号的一些思考_socasel-CSDN博客 F28335 ePWM模块简介——TMS320F28335学习笔记（四&…

阅读更多...

普通人变现天花板，月入10w是什么体验？

普通人变现天花板，月入10w是什么体验？

我是顺哥（shundazy1），一个三观超正的6年互联网创业者，信因果、利他思维一直伴随着我的商业生涯。经历过无数风风雨雨，实现过年入几百万，也曾在一年内亏了100多万。我们项目的网站首先介绍我们项目干啥…

阅读更多...

消融实验（ablation study）——全网最全解读

消融实验（ablation study）——全网最全解读

消融实验（ablation study） 是什么优势与劣势案例总结是什么消融实验是一种科学研究方法，用于确定一个条件或参数对结果的影响程度。当研究者提出了一个新的方案或方法时，消融实验通过逐一控制一个条件或参数，来观察…

阅读更多...

24届春招实习必备技能（一）之MyBatis Plus入门实践详解

24届春招实习必备技能（一）之MyBatis Plus入门实践详解

MyBatis Plus入门实践详解一、什么是MyBatis Plus? MyBatis Plus简称MP，是mybatis的增强工具，旨在增强，不做改变。MyBatis Plus内置了内置通用 Mapper、通用 Service，仅仅通过少量配置即可实现单表大部分 CRUD 操作&#xff0…

阅读更多...

2024年山东省中职“网络安全”试题——B-3：Web安全之综合渗透测试

2024年山东省中职“网络安全”试题——B-3：Web安全之综合渗透测试

B-3：Web安全之综合渗透测试服务器场景名称：Server2010（关闭链接） 服务器场景操作系统："需要环境有问题加q" 使用渗透机场景Kali中的工具扫描服务器，通过扫描服务器得到web端口，登陆…

阅读更多...

Kasada p.js (x-kpsdk-cd、x-kpsdk-ct、integrity)

Kasada p.js (x-kpsdk-cd、x-kpsdk-ct、integrity)

提供x-kpsdk-cd的API服务详细请私信~ 可试用~ V:zhzhsgg 一、简述 integrity是通过身份验证Kasada检测机器人流量后获得的一个检测结果（数据完整性） x-kpsdk-cd 是经过编码计算等等获得。当你得到正确的解决验证码值之后，解码会看到如下图…

阅读更多...

iToF人脸识别

iToF人脸识别

iToF（间接飞行时间）是一种测量光飞行时间的技术，主要应用于人脸识别。 iToF人脸识别技术在哪些场景下会用到 iToF人脸识别技术可以应用于许多场景，以下是一些常见的应用场景：平安城市：在城市监控系统中，iToF人脸识别技术可以用于实时监控、目标检测和识别，以及异常行为…

阅读更多...

关于 bringup sensor 时，曝光时间异常的问题排查

关于 bringup sensor 时，曝光时间异常的问题排查

1、问题背景这两天在配置 sc223a 这颗 sensor 的驱动，按 datasheet 的要求配置 sensor 的曝光后，发现最大曝光时间增加了一倍， sensor setting 用的是30fps ，理论上最大的绝对曝光时间应该是 33ms 才正确，但实际用 …

阅读更多...

【Redis-02】Redis数据结构与对象原理 -上篇

【Redis-02】Redis数据结构与对象原理 -上篇

Redis本质上是一个数据结构服务器，使用C语言编写，是基于内存的一种数据结构存储系统，它可以用作数据库、缓存或者消息中间件。我们经常使用的redis的数据结构有5种，分别是：string(字符串)、list(列表)、hash(哈希)、s…

阅读更多...

typro绘制uml

typro绘制uml

1. 流程图 1.1 普通流程图 1.1.1 横向 graph LRA[方形] -->B(圆角)B --> C{条件a}C -->|a1| D[结果1]C -->|a2| E[结果2]F[横向流程图]#mermaid-svg-L4kGCoCDf9uKYThC {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#33…

阅读更多...

AIGC开发：调用openai的API接口实现简单机器人

AIGC开发：调用openai的API接口实现简单机器人

简介开始进行最简单的使用：通过API调用openai的模型能力 OpenAI的能力如下图： 文本生成模型 OpenAI 的文本生成模型（通常称为生成式预训练 Transformer 或大型语言模型）经过训练可以理解自然语言、代码和图像。这些模型提供文…

阅读更多...

Java开发过程中的幂等性问题

Java开发过程中的幂等性问题

幂等性问题： 1. 有时我们在填写某些 form表单时，保存按钮不小心快速点了两次，表中竟然产生了两条重复的数据，只是id不一样。 2. 我们在项目中为了解决接口超时问题，通常会引入了重试机制。第一次请求接口超时了…

阅读更多...

63页！嵩山版Java开发手册分享

63页！嵩山版Java开发手册分享

作为广受欢迎的编程语言之一，Java在软件开发领域扮演着重要的角色。然而，由于Java的灵活性和广泛应用，很容易出现代码质量低下、可读性差、维护困难等问题。为了解决这些问题，阿里巴巴集团发布了一份权威指南——阿里嵩山版Java开…

阅读更多...

PiflowX组件-ReadFromUpsertKafka

PiflowX组件-ReadFromUpsertKafka

ReadFromUpsertKafka组件组件说明 upsert方式从Kafka topic中读取数据。计算引擎 flink 有界性 Unbounded 组件分组 kafka 端口 Inport：默认端口 outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子kafka_hostKAFKA_HO…

阅读更多...

【Java技术专题】「入门到精通系列」深入探索Java技术中常用到的六种加密技术和代码

【Java技术专题】「入门到精通系列」深入探索Java技术中常用到的六种加密技术和代码

深入探索Java技术中常用到的六种加密技术和实现背景介绍柯克霍夫原则加密机制加密类型密码学原则加密常用代表组件加密算法介绍Base64算法消息摘要算法（Message Digest）数据指纹MD5MD5算法的工作原理 SHASHA工作原理对称加密DESDES的原理分析 3DES3DE…

阅读更多...

性能优化（CPU优化技术）-ARM Neon详细介绍

性能优化（CPU优化技术）-ARM Neon详细介绍

本文主要介绍ARM Neon技术，包括SIMD技术、SIMT、ARM Neon的指令、寄存器、意图为读者提供对ARM Neon的一个整体理解。 🎬个人简介：一个全栈工程师的升级之路！ 📋个人专栏：高性能（HPC&#xff09…

阅读更多...

VMware虚拟机和Centos7镜像安装

VMware虚拟机和Centos7镜像安装

文章目录安装VMware虚拟机1、下载2、激活安装Centos7镜像启动虚拟机安装VMware虚拟机 1、下载建议还是安装16版本 VMware16下载 https://www.123pan.com/s/HQeA-aX1Sh VMware15 链接：https://pan.baidu.com/s/11UD1hb6IydbxNNPxmh-MqA?pwd0630 提取码&am…

阅读更多...

2022年全国职业院校技能大赛（高职组）“云计算”赛项赛卷①第一场次：私有云

2022年全国职业院校技能大赛（高职组）“云计算”赛项赛卷①第一场次：私有云

2022年全国职业院校技能大赛（高职组） “云计算”赛项赛卷1 第一场次：私有云（30分） 目录 2022年全国职业院校技能大赛（高职组） “云计算”赛项赛卷1 第一场次：私有云&#xff0…

阅读更多...

推荐文章

最新文章