什么是大型语言模型 ?

news2024/11/29 4:30:58

引言

本文[1]中,我们将从高层次概述大型语言模型 (LLM) 的具体含义。

背景

2023年11月,我偶然间听闻了OpenAI的开发者大会,这个大会展示了人工智能领域的革命性进展,让我深深着迷。怀着对这一领域的浓厚兴趣,我加入了ChatGPT,并很快被激发了学习其背后的大型语言模型(LLMs)技术的热情。然而,像许多人一样,我对LLMs一窍不通,不知道如何入门。

模型定义

大型语言模型(LLMs),例如ChatGPT,正在成为当今技术界的热门话题。根据维基百科,LLM的定义是:LLM是一种因其能够实现通用语言理解和生成而著称的语言模型。它们通过在计算密集型的自我监督和半监督训练过程中学习文本文档的统计关系,从而获得这些能力。LLM是采用变换器架构的人工神经网络。

换句话说:LLMs通过在包括书籍、网站和用户生成内容在内的大量文本数据集上进行训练,能够以一种自然的方式生成延续初始提示的新文本。

LLM模型本质上是一个参数众多的神经网络。简单来说,参数越多,模型的性能通常越好。因此,我们经常听到关于模型大小的讨论,这实际上是指其参数的数量。比如,GPT-3拥有1750亿个参数,而GPT-4的参数数量可能超过1万亿。

  • 但模型具体长什么样呢?
alt

语言模型只是一个二进制文件:

上图中,参数文件是Meta的Llama-2–70b模型,大小为140GB,包含70b个参数(数字格式)。 run.c文件是推理程序,用于查询模型。训练这些超大型模型是非常昂贵的。训练像 GPT-3 这样的模型需要花费数百万美元。

alt

目前,表现最为卓越的模型 GPT-4 已经不再是单一的模型,而是多个模型的集合体。这些模型各自针对特定领域进行了训练或微调,它们在推理时相互协作,以实现最优的性能表现。

不过,无需担心,我们的目标是掌握大型语言模型的基础理论。幸运的是,我们完全可以在自己的个人电脑上,用参数数量少得多的模型进行训练。

模型推理

当模型训练完毕并准备就绪后,用户用问题查询模型,问题文本将传递到该 140GB 文件中并逐个字符进行处理,然后返回最相关的文本作为结果输出。

最相关的意思是模型将返回最有可能是输入文本的下一个字符的文本。例如,

> Input: "I like to eat"
> Output: "apple"

"apple" 被预测为接下来的单词,这是因为在模型训练所用的大量数据中,"I like to eat" 后面最常跟随的就是 "apple"。

我们之前提到的书籍和网站,现在可以这样理解:基于我们提供的数据片段,模型学习到 "I like to eat apple" 是一个频繁出现的句子。而 "I like to eat banana" 也是一个常见的句子,但出现频率没有前者高。

在模型训练时,它:记录了 "apple" 在 "I like to eat" 后面出现的概率为 0.375. 记录了 "banana" 在 "I like to eat" 后面出现的概率为 0.146 和 … 其他单词的概率记录 …

这些概率值实际上被保存在模型文件中,形成了概率集合。(在机器学习中,这些概率通常被称作权重。)简而言之,LLM模型就像是一个概率数据库,它能够为任何特定的字符以及其上下文相关的字符赋予一定的概率分布。

在2017年之前,这样的技术听起来还像是天方夜谭。然而,自从论文《Attention is all you need》发表之后,Transformer 架构的出现,使得通过训练神经网络处理庞大的数据集,实现对上下文的深入理解成为现实。

模型架构

在大型语言模型(LLM)诞生之前,神经网络的机器学习确实只能使用较小的数据集,对于文本的上下文理解能力十分有限。这导致早期的模型无法像人类那样深入理解文本。

该论文最初发表时,是为了训练用于语言翻译的模型。但OpenAI的团队意识到,Transformer 架构是实现字符预测的关键技术。一旦模型经过整个互联网数据的训练,它就可能像人类一样,理解任何文本的上下文,并流畅地完成句子。

下面是一个图解,描述了模型训练过程中的内部机制:

alt

初次接触时我们可能不太明白,但别担心,我们将在随后的文章中逐步解释清楚。

Reference
[1]

Source: https://medium.com/@waylandzhang/what-is-large-language-model-llms-zero-to-hero-06f329767d03

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1802265.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络--计算机网络概念

计算机网络--计算机网络概念 计算机网络--物理层 计算机网络--数据链路层 计算机网络--网络层 计算机网络--传输层 计算机网络--应用层 0.计算机网络简介 0.2 计算机网络的功能简介 数据通信(连通性)资源共享: 软件硬件数据 分布式处理 多台计算机各自承担同…

每日一题——Python实现PAT甲级1015 Reversible Primes(举一反三+思想解读+逐步优化)

一个认为一切根源都是“自己不够强”的INTJ 个人主页:用哲学编程-CSDN博客专栏:每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 我的写法 is_prime函数分析: decimal_to_base函数分析: 主循…

Segment Anything

参考:【图像分割】Segment Anything(Meta AI)论文解读-CSDN博客 背景 提示分割任务:在给定任何分割提示下返回一个有效的分割掩码目标:开发一个可提示的图像分割的基础模型,在一个广泛的数据集上预训练&a…

【网络安全的神秘世界】在win11搭建pikachu靶场

🌝博客主页:泥菩萨 💖专栏:Linux探索之旅 | 网络安全的神秘世界 | 专接本 下载pikachu压缩包 https://github.com/zhuifengshaonianhanlu/pikachu 下载好的pikachu放在phpstudy_pro/www目录下 创建pikachu数据库 打开phpstudy软件…

数据结构--二叉树(二)

链式二叉树 链式二叉树是链式树集合中的一种,该树的每个根节点最多只有两个孩子节点,我们一般用左右孩子来称呼,在初学链式二叉树时,由于大家对链式二叉树的结构掌握还不够深入,为了降低本章的学习难度及成本&#xff…

大模型多轮问答的两种方式

前言 大模型的多轮问答难点就是在于如何精确识别用户最新的提问的真实意图,而在常见的使用大模型进行多轮对话方式中,我接触到的只有两种方式: 一种是简单地直接使用 user 和 assistant 两个角色将一问一答的会话内容喂给大模型&#xff0c…

u盘内容无故消失了是什么原因?u盘部分内容无故消失了怎么恢复

在数字化时代,U盘作为便携存储设备,承载着许多重要的数据。然而,有时我们可能会遭遇U盘部分内容无故消失的情况,这无疑给我们的工作和生活带来了不小的困扰。本文将为您解析U盘内容消失的可能原因,并分享几招实用的数据…

[经验] 场效应管是如何发挥作用的 #知识分享#学习方法#职场发展

场效应管是如何发挥作用的 在现代电子技术领域,场效应管(MOSFET)是一种重要的半导体元器件。它的作用非常广泛,例如在集成电路中扮演着关键的角色。在本文中,我们将详细探讨场效应管的作用及其在实际应用中的意义。 简…

[职场] 社保和商业保险有什么区别?可以只买商保不买社保吗? #微信#经验分享#媒体

社保和商业保险有什么区别?可以只买商保不买社保吗? 我们在提到社保和商业保险时,经常会听到这样一句话:“社保是基础,商保是补充。” 为什么会这样说呢?社保和商保有什么区别呢?今天&#xf…

AutoCAD Mechanical机械版专业的计算机辅助设计软件安装包下载安装!

AutoCAD机械版作为一款专业的计算机辅助设计软件,不仅具备卓越的二维绘图功能,更是拥有令人瞩目的3D建模工具,为机械设计师们提供了前所未有的创作空间。 在AutoCAD机械版的3D建模环境中,用户可以借助一系列简洁明了的命令&#…

SMS - 基于阿里云实现手机短信验证码登录(无需备案,非测试)

目录 SMS 环境调试 从阿里云云市场中购买第三方短信服务 调试短信验证码功能 实战开发 封装组件 对外接口 调用演示 SMS 环境调试 从阿里云云市场中购买第三方短信服务 a)进入阿里云首页,然后从云市场中找到 “短信” (一定要从 云…

SpringBoot高手之路-springboot原理篇

配置文件优先级 SpringBoot原理篇-多环境配置

JFinal学习07 控制器——接收数据之getBean()和getModel()

JFinal学习07 控制器——接收数据之getBean()和getModel() 视频来源https://www.bilibili.com/video/BV1Bt411H7J9/?spm_id_from333.337.search-card.all.click 文章目录 JFinal学习07 控制器——接收数据之getBean()和getModel()一、接收数据的类型二、getBean()和getModel()…

Pytorch手把手实作-Generative Adversarial Network (GAN)

文章目录 一、说明二、GAN的介绍三、生成器和鉴别器四、代码实现 一、说明 前言废话免了,会进来看文章内容的只有四种人:1. 只想知道皮毛,GAN在干什么的 2. 想知道细节怎么把GAN训练起来;3. 收藏在收藏夹或是书签当作有看过了&am…

HTTP协议分析实验:通过一次下载任务抓包分析

HTTP协议分析 问:HTTP是干啥用的? 最简单通俗的解释:HTTP 是客户端浏览器或其他程序与Web服务器之间的应用层通信协议。 在Internet上的Web服务器上存放的都是超文本信息,客户机需要通过HTTP协议传输所要访问的超文本信息。 一、…

Adobe XD最新版号查询,如何使用?

Adobe XD是Adobe家推出的基于矢量的原型设计合作工具,被业界视为应对Sketch的“对抗”产品。Adobe XD不同于Sketch的系统限制,灵活性比较高,Windows和Mac都可以使用。自2017年推出以来,Adobe XD版经历了多次更新,这篇文…

【Python报错】已解决SyntaxError: can’t assign to function call

成功解决“SyntaxError: can’t assign to function call”错误的全面指南 在Python编程中,语法错误(SyntaxError)是初学者和经验丰富的开发者都可能遇到的问题。其中,“SyntaxError: can’t assign to function call”这个错误常…

IM即时通信技术

本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl IM,即Instant Messaging,是指即时通讯技术,它允许用户通过互联网实时交换文本、语音、视频、文件等多种形式的信息。这种技术打破了传统通信方式的时…

Spring AOP(实现,动态原理)详解版

Spring AOP 1.什么是AOP?1.1引入AOP依赖1.2编写AOP程序 2.Spring AOP核⼼概念2.1 切点(Pointcut)2.2连接点(Join Point)2.3通知(Advice)2.4 切⾯(Aspect) 3.通知类型3.1顺序3.2切⾯优先级 Order3.3 ⾃定义注解 MyAspect 4. Spring AOP 原理5 动态代理怎么实现5.1 JD…