科普神文,一次性讲透AI大模型的核心概念

news2024/12/25 0:48:32

img

令牌,向量,嵌入,注意力,这些AI大模型名词是否一直让你感觉熟悉又陌生,如果答案肯定的话,那么朋友,今天这篇科普神文不容错过。我将结合大量示例及可视化的图形手段,为你由浅入深一次性讲透AI大模型的核心概念。

引言

随着科技公司及国际竞争的不断推进,AI大模型已经越来越多融入我们的生活。作为一个普通人或许不需要研究高深的AI算法,但想在这次AI浪潮中不被抛弃,必须对LLM原理有一个基本的理解。

理解LLM(即Large Language Model,大语言模型)如何生成文本也就意味着理解这些模型为什么是如此通用的认知引擎——以及它们还能帮助创造什么。

令牌化和向量化(Token&Vectorization)

首先,让我们从令牌化和向量化开始,这一部分内容将为大家解开AI大模型的第一层面纱-AI大模型时如何理解人类语言的。通过这一部分的讲解也将为大家构建AI大模型的基础数学观

  • 为了读懂人类提问和输出回答,LLM必须先将单词翻译成它们能理解的语言。

img

  • 首先,一块文字被分割成令牌(tokens) ——可以编码的基本单位。令牌通常代表词的片段,但我们会将每个完整的词变成一个令牌。

img

  • 为了掌握一个词的意思,例如work,LLM首先通过使用大量训练数据观察它的上下文,注意它的 邻近词。这些数据集基于收集互联网上发表的文本,新LLM使用数十亿个词进行训练。

img

  • 最终,我们得到一个巨大的与work在训练数据中一起出现的词集(E.g:roof),以及那些没有(E.g:dove)与它一起出现的词集。

img

  • 当模型处理这个词集时,它会产生一个向量——或数值列表——并根据每个词在训练数据中与work的邻近程度来调整它。这个向量被称为词嵌入(embedding)

img

  • 一个词嵌入可以包含数百个值,每个值表示一个词意义的不同方面。就像你可能会通过其特征来描述一座房子——类型、位置、卧室、浴室、楼层——嵌入中的值可以定量表示一个词的语言特征。

img

  • 这些特征的派生方式意味着我们不确切知道每个值表示什么,但我们预期在可比较的方式中使用的词,其嵌入往往看起来相似。
    比如一对词组如seaocean,它们可能不会在完全相同的上下文中使用(“all at ocean”不是“all at sea”的直接替代),但它们的意思很接近,并且嵌入允许我们量化这种接近程度。

img

  • 通过将每个嵌入表示的数百个值减少到只有两个,我们可以更清楚地看到这些词之间的距离。

img

  • 我们可能会发现代词的簇集,或交通工具的模式,能够定量表示词汇的方式是模型生成文本的第一步。

img

Transformer

在搞清楚了大模型是如何理解人类语言之后,或许你会觉得不过如此,这与LLM表现出的强大功能似乎并不相符。没错仅仅靠令牌和向量化还不足以使LLM如此聪明,接下来我们将直抵AI大模型的心脏-Transformer,正是依靠Transformer,LLM才能够像今天这样流畅地解析和书写,它从根本上加快并增强了计算机理解语言的方式。

阐述transformer模型的研究首次由谷歌的8名AI研究人员在2017年6月发表,正是大家耳熟能详的《Attention is All You Need》开启了AI的新纪元,Attention也将是下文着重讲解的核心概念,我将带领大家在上述数学模型的基础上构建对LLM的基础概念抽象。

  • Transformer体系结构的一个关键概念是自注意力(Attention)。这就是允许LLM理解词之间关系的原因。

img

  • 自注意力查看文本中的每个令牌(token),并决定哪些对理解其含义最重要。

img

  • 在transformer之前,最先进的AI翻译方法是循环神经网络(RNN),它逐字扫描句子并顺序处理。

img

  • 通过自注意力,transformer可以同时计算句子中的所有单词。捕捉这种上下文为LLM提供了更复杂的语言处理能力。

img

  • 在这个例子中,同时评估整个句子意味着transformer能够理解interest在这里作为名词使用,以解释个人对政治的看法。

img

  • 如果我们调整句子…

img

  • …模型就会理解interest现在是在金融意义上使用。

img

当我们组合这些句子时,模型仍然能够识别每个词的正确含义,这要归功于它对伴随文本的注意力。

  • 第一次使用interest,它主要注意到no 和in。

img

  • 第二次,它主要注意到rate和bank。

img

  • 这种功能对于高级文本生成至关重要。没有它,在某些上下文中可以互换但在其他上下文中不可以的词可能会被错误使用。

img

  • 实际上,自注意力意味着如果这个句子的摘要被生成,您不会在讨论利率时使用enthusiasm这个词。

img

  • 这种能力远远超越像interest这样有多个意思的词。

img

  • 在下面的句子中,自注意力能够计算出it最有可能指代dog。

img

  • 如果我们改变句子,将hungry替换为delicious,模型能够重新计算,现在it最有可能指代bone。

img

  • 随着规模的扩大,自注意力对语言处理的好处也越来越大。它允许LLM从句子边界之外获取上下文(context),让模型对一个词的使用方式有更深入的理解。

img

LLM

理解了LLM基础数学原理和模型概念抽象后,大家是不是很兴奋,最后让我们看看目前世界上最先的大预言模型到底做了什么,构建了如此缤纷多彩的AI应用世界。

大模型之所以被称之为大,是因为其训练有我们整个互联网的基础语料库的支撑,从这巨大的语料库中,模型学会识别模式,最终预测下一个最佳选项。接下来我将带领大家直面大模型,为大家揭秘LLM是如何涌现智能,成为最像人的人工智能的。

  • 基于上文的Transformer模型,对互联网语料库处理后,我们可以生成人类语言的数据模型,表示机器所理解的输入,包括词义、位置和词之间的关系。

img

  • 基于以上数学模型,求取最优解最简单的方式,就是将模型的目标设定为预测一个序列中的下一个词,并重复此过程直到输出完成。

img

  • 为此,模型给每个令牌一个概率分数(probability score),表示它是序列中下一个词的可能性。

img

  • 它将继续这样做,直到对所产生的文本感到满意。

img

  • 但是,这种隔离地预测下一个词的方法(称为“贪心搜索”)会引入问题。虽然每个令牌可能是下一个最佳选择,但整个短语可能不太相关。
    并不一定总是错误,但可能也不是你所期望的。

img

  • Transformer使用多种方法来解决这个问题并提高输出质量。一个例子叫束搜索。
    它不仅关注序列中下一个词,而是考虑一组较大令牌集合的概率。

img

  • 通过束搜索,模型能够考虑多种路径并找到最佳选项。

img

  • 这会产生更好的结果,最终导致更连贯、更人性化的文本。

img

总结

Transformer已经引领了各种尖端的AI应用程序的创建。除了支持像Bard和ChatGPT这样的聊天机器人之外,它还驱动我们移动键盘上的自动完成功能和智能扬声器中的语音识别。

然而,它的真正威力在语言之外。它的发明者发现,transformer模型可以识别和预测任何重复的主题或模式。从图片中的像素,使用Dall-E、Midjourney和Stable Diffusion等工具,到计算机代码使用GitHub Copilot等生成器。它甚至可以预测音乐中的音符和蛋白质中的DNA来帮助设计药物分子。

数十年来,研究人员构建了专门的模型来总结、翻译、搜索和检索。transformer统一了那些动作到一个单一的结构中,使其能够执行大量各种各样的任务。

通过一个统一的语言模型,实现了从图像,音乐,视频多模态的应用,并且强于以往所有的AI应用,这就是这个故事神奇的地方。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2109462.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电脑怎么禁止软件联网?电脑怎么限制软件上网?方法很多,这三种最常用!

在日常使用电脑时,某些软件可能会自动联网,这不仅会消耗网络资源,还可能带来安全风险。此外企业老板考虑到公司员工可能会在工作期间访问无关软件,影响工作效率,因此,很多用户希望能够禁止某些软件联网&…

springboot学生社团管理系统—计算机毕业设计源码26281

目录 摘要 Abstract 1 绪论 1.1 研究背景 1.2 研究意义 1.3论文结构与章节安排 2 学生社团管理系统系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据增加流程 2.2.2 数据修改流程 2.2.3 数据删除流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析…

C语言 10 数组

简单来说,数组就是存放数据的一个组,所有的数据都统一存放在这一个组中,一个数组可以同时存放多个数据。 一维数组 比如现在想保存 12 个月的天数,那么只需要创建一个 int 类型的数组就可以了,它可以保存很多个 int …

Linux网络编程IO管理

网络 IO 涉及到两个系统对象,一个是用户空间调用 IO 的进程或者线程,一个是内核空间的内核系统,比如发生 IO 操作 read 时,它会经历两个阶段: 等待内核协议栈的数据准备就绪;将内核中的数据拷贝到用户态的…

vue3 json格式化显示数据(vue3-json-viewer) 对比修改前后数据

需求:对比变更前后数据 npm包下载 npm install vue3-json-viewer --savemain.ts中全局引用 // json可视化 import JsonViewer from "vue3-json-viewer" import "vue3-json-viewer/dist/index.css";app.use(JsonViewer).mount("#app&quo…

鸿蒙界面开发——组件(6):属性字符串(StyledString)文本输入

属性字符串StyledString/MutableStyledString MutableStyledString继承于StyledString,以下统一简称StyledString。 是功能强大的标记对象,可用于字符或段落级别设置文本样式。 通过将StyledString附加到文本组件, 可以通过多种方式更改文本…

深度学习-用神经网络NN实现足球大小球数据分析软件

文章目录 前言一、 数据收集1.1特征数据收集代码实例 二、数据预处理清洗数据特征工程: 三、特征提取四、模型构建五、模型训练与评估总结 前言 预测足球比赛走地大小球(即比赛过程中进球总数是否超过某个预设值)的深度学习模型是一个复杂但有…

霍尼韦尔、书客、米家护眼大路灯怎么样?终极测评对比和护眼灯王者机型

霍尼韦尔、书客、米家护眼大路灯怎么样?护眼大路灯的重要性不容忽视,它是我们日常生活中用眼的必备工具,也是眼睛能够得到保护重要一环。近年来,护眼大路灯市场呈现出国际大牌的垄断局面,但这也带来了一些问题。为了争…

油猴插件录制请求,封装接口自动化参数

参考:如何使用油猴插件提高测试工作效率 一、背景 在酷家乐设计工具测试中,总会有许多高频且较繁琐的工作,比如: 查询插件版本:需要打开Chrome控制台,输入好几个命令然后过滤出版本信息。 查询模型商品&…

java设计模式day03--(结构型模式:代理模式、适配器模式、装饰者模式、桥接模式、外观模式、组合模式、享元模式)

5,结构型模式 结构型模式描述如何将类或对象按某种布局组成更大的结构。它分为类结构型模式和对象结构型模式,前者采用继承机制来组织接口和类,后者釆用组合或聚合来组合对象。 由于组合关系或聚合关系比继承关系耦合度低,满足“…

SpingBoot中使用Swagger快速生成接口文档

目录 一.Swagger快速上手 二.Swagger中的基本注解 三.使用Swagger进行测试 一.Swagger快速上手 Swagger是⼀个接⼝⽂档⽣成⼯具,它可以帮助开发者⾃动⽣成接⼝⽂档。当项⽬的接⼝发⽣变更时,Swagger可以实时更新⽂档,确保⽂档的准确性和时…

【神经网络系列(高级)】神经网络Grokking现象的电路效率公式——揭秘学习飞跃的秘密【通俗理解】

【通俗理解】神经网络Grokking现象的电路效率公式 论文地址: https://arxiv.org/abs/2309.02390 参考链接: [1]https://x.com/VikrantVarma_/status/1699823229307699305 [2]https://pair.withgoogle.com/explorables/grokking/ 关键词提炼 #Grokkin…

组合优化与凸优化 学习笔记3 凸函数

目前学到了73页 凸函数的定义: 人话:函数f的定义域是凸集(在一般的情况下就是不能是断开的定义域(一般的情况是1维的嘛),假如x是什么多维向量的话就是说x的取值范围是一个凸集内),并…

基于云原生向量数据库 PieCloudVector 的 RAG 实践

近年来,人工智能生成内容(AIGC)已然成为最热门的话题之一。工业界出现了各种内容生成工具,能够跨多种模态产生多样化的内容。这些主流的模型能够取得卓越表现,归功于创新的算法、模型规模的大幅扩展,以及海…

XXL-JOB调度中心与执行器

XXL-JOB是一个轻量级的分布式任务调度平台,主要由调度中心和执行器两部分组成。下面详细讲解调度中心与执行器的功能和作用。 调度中心 调度中心是XXL-JOB的核心组件,负责任务的调度管理。其主要功能包括: 任务管理:调度中心提供…

计算组合数:scipy.special.comb()

【小白从小学Python、C、Java】 【考研初试复试毕业设计】 【Python基础AI数据分析】 计算组合数: scipy.special.comb() 选择题 以下代码两次输出的结果是? from scipy.special import comb print("【执行】print(comb(3,2))") print(comb(3…

011. Oracle-约束

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉&…

小白学装修 之 硬装阶段

在准备阶段 了解了 装修的基本概念 顺利收房 进行了需求和预算的大致规划 并且完成了简单的自主设计接下来就是带着自己的设计图 预算和想法 去找公司或者施工方了 找施工方 可以是 设计师和施工方分开找 也可以找有设计的装修公司 或者 有施工能力的设计室都行 但不 管哪…

【#第三期实战营闯关作业 ## 茴香豆:企业级知识库问答工具】

今天学习了《 茴香豆:企业级知识库问答工具》这一课,对大模型的应用有了更深得认识。以下是记录本课实操过程及截图: 搭建茴香豆虚拟环境: 输入以下命令 studio-conda -o internlm-base -t huixiangdou 成功安装虚拟环境截图 …

OpenAI gym CarRacing-v2 episode termination

题意:OpenAI Gym CarRacing-v2 赛道终止处理 问题背景: I am using gym0.26.0 library and am trying to understand what means that an episode is finished/done in the CarRacing-v2 environment. In the documentation is written this. 我正在使…