翻译: 深入分析LLMs like ChatGPT 一

news2025/4/8 2:09:25

在这里插入图片描述

大家好,我想做这个视频已经有一段时间了。这是一个全面但面向普通观众的介绍,介绍像ChatGPT这样的大型语言模型。我希望通过这个视频让大家对这种工具的工作原理有一些概念性的理解。

首先,我们来谈谈你在这个文本框里输入内容并点击回车后背后的运作机制。我们应该输入什么?这些生成出来的词又是怎么回事?它是如何工作的?你到底是在和什么交流?
在这里插入图片描述

我们将从构建像ChatGPT这样的东西开始讲起,在这个过程中,我会提到一些这些工具在认知心理学方面的影响。

预训练数据(互联网)​
在这里插入图片描述

预训练阶段是整个过程的第一步。预训练阶段的第一步是从互联网下载和处理数据。为了让大家对这个有个直观的感受,我推荐大家看看这个网址。有一家公司叫Hugging Face,他们收集、整理并创建了一个名为FineWeb的数据集。他们在这个博客文章里详细介绍了FineWeb数据集的构建过程。像OpenAI、Anthropic和Google等主要的LLM提供商内部也有类似的数据集。
在这里插入图片描述

我们试图从互联网上获取大量高质量的文本,这些文本来源公开可用,并且我们希望文档的种类非常丰富,因为我们希望模型能包含大量的知识。实现这个目标其实很复杂,需要多个步骤。比如FineWeb数据集最终大概是44TB的磁盘空间。虽然互联网非常大,但我们处理的是文本,并且经过了严格的筛选。
在这里插入图片描述

Common Crawl是一个从2007年开始就一直在抓取互联网的组织。截至2024年,他们索引了27亿个网页。他们有很多爬虫在互联网上抓取数据,从一些种子网页开始,顺着链接不断抓取并索引信息。Common Crawl的数据很原始,需要经过很多处理步骤,比如URL过滤,去除恶意网站、垃圾网站等;文本提取,把HTML代码转化为纯文本;语言过滤,比如FineWeb会用语言分类器筛选出英语占比超过65%的网页;还有去重和去除个人身份信息等操作。
在这里插入图片描述

标记化(Tokenization)​

在把文本输入神经网络之前,我们需要决定如何表示这些文本并将其输入。我们的技术要求文本是一维符号序列,并且符号数量有限。我们先把文本转化为UTF - 8编码的原始比特,然后通过字节对编码算法等方式将文本转化为有限的符号序列。比如GPT - 4使用了大约10万个可能的符号。

神经网络的输入输出

我们把文本序列用标记器转化为标记序列后,就进入神经网络训练阶段。我们希望模型学习标记在序列中的统计关系。我们会从数据中选取一定长度的标记窗口,预测下一个标记。开始时神经网络是随机初始化的,我们会根据预测结果和真实标签调整网络参数,让正确答案的概率更高。

神经网络内部

神经网络的输入是变长标记序列,输出是对下一个标记的预测概率。这些参数就像DJ调音台上的旋钮,通过调整参数来优化模型的预测结果。现代神经网络有数十亿个参数,训练过程就是不断调整这些参数使其与训练数据的统计模式相匹配。

推理(Inference)​

推理阶段是从模型中生成新数据。我们从一些起始标记开始,根据模型的概率分布采样下一个标记,不断重复这个过程。由于采样和随机性的存在,生成的结果具有一定的随机性,可能与训练数据不完全相同。

GPT - 2:训练和推理

GPT - 2是OpenAI发布的第二代Transformer神经网络,有16亿个参数,最大上下文长度为1242个标记,训练了约1000亿个标记。我曾尝试复现GPT - 2,训练成本在2019年估计约为40000美元,现在可以做得更好且成本更低。

Llama 3.1基础模型推理

我们还可以使用一些大科技公司训练好的模型。比如Llama 3,它是Meta发布的450亿参数模型,训练了15万亿个标记。Meta还发布了Instruct版本,使其成为一个助手模型。我们可以与基础模型交互,但它还不是完整的助手,只是一个标记自动补全工具,并且结果是随机的。虽然它能提供一些知识,但这些知识是模糊、概率性的,而且可能存在幻觉。不过,通过巧妙的提示设计,基础模型也可以在一些实际应用中发挥作用,比如构建翻译应用等。甚至可以通过特定的提示结构让基础模型扮演助手的角色。

最后,我们来回顾一下从预训练到后训练的过程。我们希望训练像ChatGPT这样的LLM助手,预训练阶段主要是获取互联网文档,将其分割成标记,然后用神经网络预测标记序列。

参考

https://www.youtube.com/live/7xTGNNLPyMI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2308928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《白帽子讲 Web 安全》之移动 Web 安全

目录 摘要 一、WebView 简介 二、WebView 对外暴露 WebView 对外暴露的接口风险 三、通用型 XSS - Universal XSS 介绍 四、WebView 跨域访问 五、与本地代码交互 js 5.1接口暴露风险: 5.2漏洞利用: 5.3JavaScript 与 Native 代码通信 六、Chr…

解锁 indexOf、substring 和 JSON.stringify:从小程序图片上传看字符串魔法 ✨

🌟 解锁 indexOf、substring 和 JSON.stringify:从小程序图片上传看字符串魔法 ✨ 在 JavaScript 中,字符串操作和数据序列化是开发中不可或缺的技能。indexOf、substring 和 JSON.stringify 是三个简单却强大的工具,分别用于定位…

常用的AI文本大语言模型汇总

AI文本【大语言模型】 1、文心一言https://yiyan.baidu.com/ 2、海螺问问https://hailuoai.com/ 3、通义千问https://tongyi.aliyun.com/qianwen/ 4、KimiChat https://kimi.moonshot.cn/ 5、ChatGPThttps://chatgpt.com/ 6、魔塔GPT https://www.modelscope.cn/studios/iic…

DCN讲解

DCN是DeepFM的升级版,后者是只能做二阶交叉特征,随着阶数上升,模型复杂度大幅提高,且FM网络层较浅,表达能力有限。google团队通过构建深度交叉网络来自动进行特征的高阶交叉,且时空复杂度均为线性增长&…

5. Nginx 负载均衡配置案例(附有详细截图说明++)

5. Nginx 负载均衡配置案例(附有详细截图说明) 文章目录 5. Nginx 负载均衡配置案例(附有详细截图说明)1. Nginx 负载均衡 配置实例3. 注意事项和避免的坑4. 文档: Nginx 的 upstream 配置技巧5. 最后: 1. Nginx 负载均衡 配置实例 需求说明/图解 windows 浏览器输…

C++之再识模板template

目录 1.非类型模板参数 2.函数/类模板的特化 3.模板的分离编译 4.总结:模板的优缺点 1. 代码复用性高 2. 类型安全 3. 性能优化 2. 错误信息难以理解 3. 代码膨胀 易错易忽略的语法点: 1. 模板声明和定义分离问题 2. 模板参数推导问题 1.非类…

【文献阅读】Collective Decision for Open Set Recognition

基本信息 文献名称:Collective Decision for Open Set Recognition 出版期刊:IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING 发表日期:04 March 2020 作者:Chuanxing Geng and Songcan Chen 摘要 在开集识别&#xff0…

力扣刷题DAY2(链表/简单)

一、回文链表 回文链表 方法一:双指针 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(nullptr) {}* ListNode(int x, L…

ansible自动化运维工具学习笔记

目录 ansible环境部署 控制端准备 被控制端准备 ansible批量管理主机的方式主要有两种 配置准备: ssh密码认证方式管理机器 密码登录,需要各主机密码相同 配置免密登录 ssh密钥方式批量管理主机 ansible实现批量化主机管理的模式 ansible-doc命令 comman…

网络空间安全(4)web应用程序安全要点

前言 Web应用程序安全是确保Web应用程序、服务和服务器免受网络攻击和威胁的关键环节。 一、编写安全的代码 输入验证与过滤:确保所有的用户输入都被正确验证和过滤,以防止注入攻击等安全漏洞。开发者应对URL、查询关键字、HTTP头、POST数据等进行严格的…

【word】保存重开题注/交叉引用消失,全局更新域问题

目录 一、更新域是什么二、更新域常见问题及解决方法(一)更新域后内容未变化(二)域代码显示异常(三)交叉引用无法更新(四)全选更新域出现错误 三、交叉引用与题注的关系及操作&#…

DeepSeek的无限可能

DeepSeek的无限可能 DeepSeek简介DeepSeek定义DeepSeek的发展历程DeepSeek的核心功能 如何使用DeepSeek注册与安装模型使用原则提示语的使用 人机共生 DeepSeek简介 DeepSeek定义 DeepSeek(中文名:深度求索)是一款由杭州深度求索人工智能基…

【wordpress】服务器已有LNMP环境(已运行WordPress),如何配置文档访问功能?

效果如图步骤确定文件存放目录404.html修改配置文件重启nginx服务 接下来是从win向linux云服务器上传文件使用Samba服务(没成功)使用xshell上传文件(大文件上传一堆乱码)winscp(好用) 效果如图 如果url不对…

Hadoop之01:HDFS分布式文件系统

HDFS分布式文件系统 1.目标 理解分布式思想学会使用HDFS的常用命令掌握如何使用java api操作HDFS能独立描述HDFS三大组件namenode、secondarynamenode、datanode的作用理解并独立描述HDFS读写流程HDFS如何解决大量小文件存储问题 2. HDFS 2.1 HDFS是什么 HDFS是Hadoop中的一…

Redis学习笔记系列(一)——Redis简介及安装

1. Redis介绍 Redis是完全开源的,遵守 BSD 协议,是一个高性能的 key-value 数据库。 Redis与其他key-value缓存产品有以下三个特点: Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行…

【考试大纲】初级信息处理技术员考试大纲

目录 引言一、考试说明1.考试要求2.考试目标二、考试范围科目一:信息处理基础知识科目二:信息处理应用技术引言 最新的信息处理技术员考试大纲出版于 2018 年 6 月,本考试大纲基于此版本整理。 一、考试说明 1.考试要求 (1)了解信息技术的基本概念; (2)熟悉计…

LabVIEW正弦信号处理:FFT与最小二乘拟合的参数提取

问题一:LabVIEW能否对采集的正弦力信号进行快速傅里叶变换(FFT),并得到幅值和相位结果? 答案: 可以。LabVIEW通过内置信号处理工具包提供完整的FFT分析功能,具体实现如下: FFT分析流…

【计算机网络入门】初学计算机网络(五)

目录 1.编码&解码、调制&解调 2.常用编码方法 2.1 不归零编码(NRZ) 2.2 归零编码(RZ) 2.3 反向非归零编码(NRZI) 2.4 曼彻斯特编码 2.5 差分曼彻斯特编码 3. 各种编码的特点 4.调制 5.有线传输介质 5.1 双绞线 5.2 同轴电缆 5.3 光…

YOLO在PiscTrace上检测到数据分析

在现代计算机视觉领域,实时视频数据的检测与分析对于安全监控、交通管理以及智能制造等领域具有重要意义。YOLO(You Only Look Once)作为一种高效的目标检测算法,能够在保持高精度的同时实现实时检测。而PiscTrace作为一款集成了O…

【漫话机器学习系列】112.逻辑回归(Logistic Regression)

逻辑回归(Logistic Regression)详解 1. 逻辑回归简介 逻辑回归(Logistic Regression)是一种广泛用于二分类任务的统计和机器学习方法,尽管它的名字中带有“回归”,但它实际上是一种分类算法。 在逻辑回归…