大模型在接受到对话后,有4个步骤(如下图)
-
① 文本token化
-
② 单词向量化、位置编码
-
③ 自注意力
-
④ 编码输出
我们接下来看看这几个步骤是怎么具体工作的。
1、文本token化、向量化embedding和位置编码
任何不同种族交流的前提就是:翻译和理解。就像我们和老外交流一样,我们得先将老外的语言翻译成我们自己能理解的。
大语言模型要想与人类交流,那么它肯定需要先理解提问内容。所以,首先,大语言模型要将内容翻译成它所能理解的语言。
举例:We go to work by train
首先这一段文字会被分拆成 tokens。token是可以被编码的基本单元,代表一段话的一部分。但是,我们通常将一个完整的单词放到一个token里,如下图。
为了掌握每一个单词的意义,大模型需要通过大量的训练数据去观察该单词的上下文,并记下附近的单词(如下图动画)。这些训练数据集,是基于互联网上发布的文本进行整理的,通过数十亿个句子进行训练。
最终, 我们得到了一大堆在训练数据中与work一起出现的单词(如下图的黄色单词),以及那些并没有在它附近出现的单词(如下图的蓝色单词)。
当模型处理这组单词时,它会生成一个向量(或数值列表),并根据每个单词与训练数据中的work的接近程度进行调整。该向量称为词嵌入(embedding)。
一个单词的embedding可以有数百个值,每个值代表单词含义的不同方面。正如您可以通过房屋的特征(类型、位置、卧室、浴室、楼层)来描述房屋一样,embedding中的值可以量化单词的语言特征。
我们并不确切地知道embedding的每个特征值代表什么,但我们预期的比较接近的单词,通常具有相似的embedding。
比如,单词sea 和 ocean的意思比较接近,那么它们的embeddings也是非常的接近(如下图,这两个单词的embedding的颜色看起来非常的相似!)
通常embedding值非常多,可能有数百个。我们如果把embedding值减少到两个,就可以更清楚地看到这些单词之间的距离(如下图)。
我们可能会发现 , 一系列的pronouns(代词)或transportation(交通)单词都聚集在同一个区域(如下图,相似词都聚集在同一区域) 。能够通过这种方式定量地表示单词,是大模型生成文本的第一步。
2、Transformer自注意力、预测编码输出
有了向量化之后,另外一个关键点就是 Transformer。Transformer能立即处理整个序列(无论是句子、段落还是整篇文章)分析其所有部分,而不仅仅是单个单词。这使得大模型能够更好地捕捉上下文,并更准确地翻译或生成文本。
Transformer 架构的一个关键概念是自注意力。这就是大模型能够理解单词之间关系的原因。自注意力会查看文本中的每个token,并决定哪些其他token对于理解其含义最重要。在transformer之前, 最先进的AI翻译方法是循环神经网络(RNN), 它逐字扫描句子并顺序处理。
而,transformer通过自注意力可以同时计算句子中的所有单词。能直接捕捉上下文,为大模型提供了更复杂的语言处理能力。
在这个例子中, transformer可同时评估整个句子,能够理解 interest 在这里作为名词使用,以解释个人对政治的看法。
如果我们调整句子,模型就会理解 interest 现在是金融相关的意义(“利息”的意思)。
当我们组合这些句子时, 模型仍然能够识别每个单词的正确含义,这些都是因为伴随文本的自注意力。第一次使用interest时,它主要注意到no 和 in。
而第二次, 它主要注意到 rate 和 bank。
这种功能对于高级文本生成至关重要。否则, 可能会错误地使用其他上下文里的单词。
在下面的句子中,自注意力能够计算出it最有可能指代dog。
如果我们改变句子,将hungry替换为delicious, 模型能够重新计算,现在it最有可能指代bone。
数据规模越大,自注意力对于语言处理的好处就越明显。它允许大模型从句子边界之外获取上下文,使模型更好地理解单词的使用方式和时间。
在对输入文本进行token化和编码后,获得了代表机器理解的输入数据块,包括含义、位置和单词之间的关系。该模型现在的目标是根据这些数据块去预测序列中的下一个单词,并重复执行此操作,直到输出完成。为此,模型给每个token一个概率分数(probability score), 表示它是序列中下一个单词的可能性。
模型会持续这样做,直到对生成的文本感到满意为止。
但这种逐个预测下一个单词的方法(称为“贪婪搜索”)可能会带来问题。有时,虽然每个单独的token可能是下一个最合适的token,但完整的短语可能不太相关。不一定总是错误的,但也许也不是你所期望的。
Transformers 使用多种方法来解决此问题并提高输出质量。一个例子称为beam search。它不是只关注序列中的下一个单词,而是着眼于整个更大的token集的概率。通过beam search, 模型能够考虑多种路径并找到最佳选项。这会产生更好的结果,最终产生更连贯、更接近人类期望的文本。
**总结:**大模型不是搜索引擎。它们是模式识别引擎,可以猜测序列中的下一个最佳选项。由于这种固有的预测性质,大模型还可以产生“幻觉”,也就是捏造信息。他们可以生成虚构的数字、名称、日期、引言——甚至网络链接或整篇文章。谷歌、OpenAI 和其他公司正在努力通来限制幻觉。虽然目前还存在一些问题,但是已经在很多场景产生了惊人的效果。
“预测下一个单词,就是这么简单的模型…可以做任何事情”, 人工智能初创公司 Cohere 的首席执行官、Transformer 论文的合著者艾丹·戈麦斯 (Aidan Gomez) 说道。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓