大模型为何能与人类交流?

news2024/9/24 1:24:14

大模型在接受到对话后,有4个步骤(如下图)

  • ① 文本token化

  • ② 单词向量化、位置编码

  • ③ 自注意力

  • ④ 编码输出

我们接下来看看这几个步骤是怎么具体工作的。

1、文本token化、向量化embedding和位置编码

任何不同种族交流的前提就是:翻译和理解。就像我们和老外交流一样,我们得先将老外的语言翻译成我们自己能理解的。

大语言模型要想与人类交流,那么它肯定需要先理解提问内容。所以,首先,大语言模型要将内容翻译成它所能理解的语言。

举例:We go to work by train

首先这一段文字会被分拆成 tokens。token是可以被编码的基本单元,代表一段话的一部分。但是,我们通常将一个完整的单词放到一个token里,如下图。

为了掌握每一个单词的意义,大模型需要通过大量的训练数据去观察该单词的上下文,并记下附近的单词(如下图动画)。这些训练数据集,是基于互联网上发布的文本进行整理的,通过数十亿个句子进行训练。

最终, 我们得到了一大堆在训练数据中与work一起出现的单词(如下图的黄色单词),以及那些并没有在它附近出现的单词(如下图的蓝色单词)。

当模型处理这组单词时,它会生成一个向量(或数值列表),并根据每个单词与训练数据中的work的接近程度进行调整。该向量称为词嵌入(embedding)。

一个单词的embedding可以有数百个值,每个值代表单词含义的不同方面。正如您可以通过房屋的特征(类型、位置、卧室、浴室、楼层)来描述房屋一样,embedding中的值可以量化单词的语言特征。

我们并不确切地知道embedding的每个特征值代表什么,但我们预期的比较接近的单词,通常具有相似的embedding。

比如,单词sea 和 ocean的意思比较接近,那么它们的embeddings也是非常的接近(如下图,这两个单词的embedding的颜色看起来非常的相似!)

通常embedding值非常多,可能有数百个。我们如果把embedding值减少到两个,就可以更清楚地看到这些单词之间的距离(如下图)。

我们可能会发现 , 一系列的pronouns(代词)或transportation(交通)单词都聚集在同一个区域(如下图,相似词都聚集在同一区域) 。能够通过这种方式定量地表示单词,是大模型生成文本的第一步。

2、Transformer自注意力、预测编码输出

有了向量化之后,另外一个关键点就是 Transformer。Transformer能立即处理整个序列(无论是句子、段落还是整篇文章)分析其所有部分,而不仅仅是单个单词。这使得大模型能够更好地捕捉上下文,并更准确地翻译或生成文本。

Transformer 架构的一个关键概念是自注意力。这就是大模型能够理解单词之间关系的原因。自注意力会查看文本中的每个token,并决定哪些其他token对于理解其含义最重要。在transformer之前, 最先进的AI翻译方法是循环神经网络(RNN), 它逐字扫描句子并顺序处理。

而,transformer通过自注意力可以同时计算句子中的所有单词。能直接捕捉上下文,为大模型提供了更复杂的语言处理能力。

在这个例子中, transformer可同时评估整个句子,能够理解 interest 在这里作为名词使用,以解释个人对政治的看法。

如果我们调整句子,模型就会理解 interest 现在是金融相关的意义(“利息”的意思)。

当我们组合这些句子时, 模型仍然能够识别每个单词的正确含义,这些都是因为伴随文本的自注意力。第一次使用interest时,它主要注意到no 和 in。

而第二次, 它主要注意到 rate 和 bank。

这种功能对于高级文本生成至关重要。否则, 可能会错误地使用其他上下文里的单词。

在下面的句子中,自注意力能够计算出it最有可能指代dog。

如果我们改变句子,将hungry替换为delicious, 模型能够重新计算,现在it最有可能指代bone。

数据规模越大,自注意力对于语言处理的好处就越明显。它允许大模型从句子边界之外获取上下文,使模型更好地理解单词的使用方式和时间。

在对输入文本进行token化和编码后,获得了代表机器理解的输入数据块,包括含义、位置和单词之间的关系。该模型现在的目标是根据这些数据块去预测序列中的下一个单词,并重复执行此操作,直到输出完成。为此,模型给每个token一个概率分数(probability score), 表示它是序列中下一个单词的可能性。

模型会持续这样做,直到对生成的文本感到满意为止。

但这种逐个预测下一个单词的方法(称为“贪婪搜索”)可能会带来问题。有时,虽然每个单独的token可能是下一个最合适的token,但完整的短语可能不太相关。不一定总是错误的,但也许也不是你所期望的。

Transformers 使用多种方法来解决此问题并提高输出质量。一个例子称为beam search。它不是只关注序列中的下一个单词,而是着眼于整个更大的token集的概率。通过beam search, 模型能够考虑多种路径并找到最佳选项。这会产生更好的结果,最终产生更连贯、更接近人类期望的文本。


**总结:**大模型不是搜索引擎。它们是模式识别引擎,可以猜测序列中的下一个最佳选项。由于这种固有的预测性质,大模型还可以产生“幻觉”,也就是捏造信息。他们可以生成虚构的数字、名称、日期、引言——甚至网络链接或整篇文章。谷歌、OpenAI 和其他公司正在努力通来限制幻觉。虽然目前还存在一些问题,但是已经在很多场景产生了惊人的效果。

“预测下一个单词,就是这么简单的模型…可以做任何事情”, 人工智能初创公司 Cohere 的首席执行官、Transformer 论文的合著者艾丹·戈麦斯 (Aidan Gomez) 说道。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2081293.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【GD32 MCU 移植教程】从 STM32F10x 移植到 GD32E103的移植说明

1. 前言 对于使用微控制器进行产品开发的设计人员来说,因产品及功能升级,往往需要将一种微控制器替 换成另一种微控制器,在保留既有功能的情况下增加新功能。为了更快地推出新产品,设计人员经 常要将应用程序移植到新的微控制器…

苹果手机数据恢复方法有哪些?推荐3个快速恢复的方法

你是否遇到过这样的情况呢:苹果手机进水后,无法打开手机,导致手机里的数据不见了;苹果手机不见了,买新手机却没有以前的手机数据……面对这样的情况,如何恢复苹果手机的数据呢?别急,…

Java基础——自学习使用(抽象类)

一、抽象类的定义 在Java中,抽象类是一种不能被实例化的类,它主要用于被其他类继承。抽象类可以包含抽象方法(没有方法体的方法,仅有一个方法签名,以abstract关键字声明)和非抽象方法(即具有实现…

【前沿技术】扩散模型Stable Diffusion原理与应用

Stable Diffusion是一种基于扩散模型(Diffusion Models)的生成技术,近年来在图像生成和其他生成任务中取得了显著的进展。该技术以其高质量的生成效果、稳定的训练过程和广泛的应用前景,迅速在学术界和工业界引起了广泛关注。 以…

C++入门基础知识38——【关于C++ 运算符——逻辑运算符】

成长路上不孤单😊【14后,C爱好者,持续分享所学,如有需要欢迎收藏转发😊😊😊😊😊😊😊!!!!&#xff…

【PWN · 栈迁移 | one-read】[羊城杯 2024]pstack

从前的栈迁移,怎么也得泄露一个栈指针,或者对bss有两次及以上写的能力,这题过分精简,一时间失了分寸。。。好在信息检索到了解法,并动态调试了解了过程 前言 栈溢出长度不够如何利用——可以考虑栈迁移 如果从交互来…

想入门AI产品经理,你一定要明白这些!

前言 对于想要进入AI领域,特别是成为AI产品经理的朋友们来说,了解并掌握一些AI大模型的基础知识是非常重要的。接下来,我就用更通俗的方式,给大家介绍一下入行AI大模型所必备的几点知识。 一、AI大模型是啥? 简单来…

中秋佳节好物推荐:五款数码产品让你的节日更加精彩

中秋节是中华文化中最为重要的传统节日之一,它象征着团圆和丰收,也是我们与家人朋友欢聚一堂,共享美好时光的日子。除了团圆饭桌上的月饼和水果,我们还可以通过一些现代数码产品来为这个节日增添科技感和便利性。无论是提升个人生…

【机器学习】非线性降维、流形学习的基本概念、如何选择合适的非线性降维方法以及非线性降维的流形学习实例(含python代码)

引言 非线性降维是机器学习中用来处理高维数据的一种方法,特别是当数据包含复杂的非线性结构时 文章目录 引言一、非线性降维1.1 目的1.2 非线性降维方法1.2.1 核主成分分析 (Kernel PCA)1.2.2 局部线性嵌入 (LLE)1.2.3 等距映射 (Isomap)1.2.4 拉普拉斯特征映射 (L…

3秒AI写真出图,Stable Diffusion2024升级版+使用教程来了!(无需安装,解压即用)

要说今年摄影圈最大的新秀 那妥妥的就Stable Diffusion 比如下面的写真照片 你敢信这是SD绘画生成的? 就在刚刚它又全面升级了 新版无需安装,直接解压就能用 比之前推送的更加智能、快速和简单 另外还特意为大家准备了 Stable Diffusion 人工智能…

新书速览|Altium Designer 24入门与案例实践:视频教学版

本书内容 《Altium Designer 24入门与案例实践:视频教学版》以当前最新的板卡级设计软件Altium Designer 24为基础,全面讲述电路设计的各种基本操作方法与技巧,并演示两个大型综合实战案例。《Altium Designer 24入门与案例实践:视频教学版》配套示例源文…

RAG的基石:大语言模型文本向量化能力对比

什么是具象的高维向量空间?也许这是一个,在不同的平行空间里面,对不同的物体有各自的表示… 一、概述 大家都比较关心大语言模型的能力,但往往容易忽略其向量化(Embedding)的能力。在RAG应用中&#xff0c…

USB3202N多功能数据采集卡16位模拟量250K频率LabVIEW采集卡

品牌:阿尔泰科技 系列:多功能数据采集卡 概述: USB3202N多功能数据采集卡,LabVIEW无缝连接,提供图形化API函数,提供8通道(RSE、NRSE)、4通道(DIFF)模拟量输…

计算机毕业设计hadoop+spark+hive物流预测系统 物流大数据分析平台 物流信息爬虫 物流大数据 机器学习 深度学习

流程: 1.Python爬虫采集物流数据等存入mysql和.csv文件; 2.使用pandasnumpy或者MapReduce对上面的数据集进行数据清洗生成最终上传到hdfs; 3.使用hive数据仓库完成建库建表导入.csv数据集; 4.使用hive之hive_sql进行离线计算&…

matlab可以把多个二维图合成为三维瀑布图吗??

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

小皮服务器无法启动Mysql服务器

一、用小皮服务器启动mysq,启动后几秒钟就停止了 出现了这种情况怎么办? 二、因为电脑已经启动了mysql服务 关闭掉已启动的mysql服务就好 在电脑任务栏的空白处右键,出现‘任务管理器’ 找到mysql服务,右键“结束任务” 三、再…

【论文笔记】独属于CV的注意力机制CBAM-Convolutional Block Attention Module

目录 写在前面 一、基数和宽度 二、通道注意力模块(Channel Attention Module) 三、空间注意力模块(Spatial Attention Module) 四、CBAM(Convolutional Block Attention Module) 五、总结 写在前面 …

调试JS代码

一、vs code调试 1.在vs code中如何进行代码调试? 首先,在vs code中配置 auto-attach,通过ctrl shift p,输入 auto-attach。设置成smart(智能)。如下图: 然后,对需要调试的语句在…

AWS子账号的创建与管理:提升安全性与灵活性

在现代云计算环境中,亚马逊网络服务(AWS)提供了强大的功能,允许用户创建和管理子账号。通过合理地使用子账号,企业可以有效地提升安全性、管理复杂性以及资源的灵活性。我们九河云一起细探讨AWS子账号的创建方法。 为什…

2-78 基于matlab-GUI的DTW算法语音识别

基于matlab-GUI的DTW算法语音识别,具有16页分析报告。能识别0-9数字,正确率90。预处理过程包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。经过预处理的语音数据进行特征参数提取。在训练阶段,将特征参数处理之后,每个…