01-大语言模型发展

news2024/11/15 21:22:06

AI大模型的相关的一些基础知识,一些背景和基础知识。

多模型强应用AI 2.0时代应用开发者的机会。

0 大纲

  1. AI产业的拆解和常见名词
  2. 应用级开发者,在目前这样一个大背景下的一个职业上面的一些机会
  3. 实战部分的,做这个agent,即所谓智能体的这么一个虚拟项目,项目需求分析、技术选型等

1 大语言模型发展

LLM,Large Language Model,大语言模型。为什么叫2.0?因为在大语言模型,也就是LLM出现之前,我们把它归结为1.0时代。那么1.0时代主要的是NLP(自然语言处理)的各类工程,它其实都是一个特点,就是说通用性比较差。那么整个AI领域的终极的圣杯,或者说将来它的一个终极的一个希望做到的,是AGI(Artificial General Intelligence,人工通用智能)。1.0可能是一个单任务的这么一个AI。比如深蓝战胜象棋冠军,他只会下象棋,而且他的下象棋是学习了很多的这个象棋的这个国际象棋的这个套路,他只会干这一个事情,而且你问他别的事情他肯定不知道。

2 LLM的特点

大语言模型的特点是啥?大语言模型,它就是说可以像语言一样跟我们交互,那么通过语言,它其实可以扩展到很多的场景。那么未来呢,可能会从依据大语言这种方式,我们可能会发展出来真的发展出来AGI,所谓的通用智能,也就是跟我们人类一样拥有智慧的这样的一个智能体。那好,那我们1.0我们AI 1.0我们就不做介绍了,那里面其实有很多NLP的相关的东西。

2.0开始介绍,技术层面基本上是一个从点到面的一个过程。那么最早出现的一个技术,是词向量技术,把自然语言的词语,使用向量来表示。向量是一个数学概念,比如猫,这个词在向量空间里面,它可能就表示成这样一个坐标位置。狗可能就跟它有所区别。牛又不一样。所以可理解为,每一个词,它在向量空间里面都有一个唯一坐标,然后就可构成这样的一个词语字典。然后使用这种one-hot的方式来表示,如苹果标注成101这样的坐标。把自然语言,通过数学语言去给它描述出来,而且它是一个坐标,可精准找到它位置。

3 大模型的不足和解决方案

但有问题,它没有办法表达词语和词语之间的这个关系。比如猫1这样一个坐标,和狗这样01一个坐标,之间什么关系呢?不知道的。

第二就是效率不是很高。

后面发展中,在这个词向量的基础上,出现

4 词嵌入(embedding)

也继续叫词向量也可以,就是对语言模型进行预训练。我们通过大量现有文章资料,让我们的这前面这些词向量,它具备语言信息。那通过了一些训练的预训练之后的这个词向量,它在这个向量空间上,它就带上了一些额外的信息,它就会有效提升我们模型的效果。而且在后续的其他任务中间,去做一个迁移。那么这个就是大语言模型的预训练的这个,一个初始的一个原型。

比如猫、狗,通过坐标标注,让它有这种低维向量的这种这种表示。还可有这样语义相似的一个向量空间相近,好比我们认为,比如说猫和狗,通过我们的预训练的这些大量的文章,资料,我们发现猫和狗都同属于宠物。那么有可能这两个坐标点,在向量空间里就是比较接近。比如说我们找宠物的时候,那么在这个向量空间里面,猫和狗就是在宠物这个向量域里面。牛和羊,都属于我们的常用的肉吃的家畜,那可能就是在那个向量域里面。所以呢,我们可以看到词向量,它就是一个地位向量表示,再一个是语义相似的向量空间,相近的这么一个特性。还有一个,它可以迁移学习,把这个任务,迁移到其他任务里面去。深蓝的下象棋例子,就可以把它的技能去迁移啦。

在词嵌入之后出现

5 巨向量和全文向量

根据这个前文信息,去分析下文或根据本文翻译成另一种语言。那么它代表的呢,是一些模型,如:

  • RNN(Recurrent Neural Network,循环神经网络)
  • LSTM(Long Short-Term Memory,长短期记忆网络)

它可有效处理这种时序性的,序列数据。"What time is it?",训练时,它是一层一层的,它第一层这个神经网络,可能先看到"What",然后"time","is","it",看到最后的问号。它会通过这样的一个顺序,去处理这样的一个语句,去做一个上下文的一个理解。它还可以做到一些短时记忆和选择性的遗忘,就是RNN和LSTM,那么它主要应用在像文本生成啊,语音识别啊,图像描述等等。这个时候就是比如说类似RNN和LSTM这样的模型出现的时候呢,它其实已经可以做到我们常见的一些AI识别。

再往后就到理解上下文,就是全文的上下文,如"买什么 什么is"这个这个模式理解上下文,这个模式代表作是类似比如说这个BERT这样大模型。到这阶段,已经可完成类似完形填空任务。那它就是根据上下文理解当前的代词,比如说男他女她动物它是什么,完成这个完形填空。那么这个时候就属于所谓的真域训练模型时代开启。

特点

支持并行训练,如说CNN(Convolutional Neural Network,卷积神经网络)这个模型比,就比如说这个"What time is it",只能一层一层处理,不支持并行训练。必须完成这个事情之后再做下一个事情。

所以呢,它替代RNN和CNN这样神经网络,更强大,可以实现一些类似语义识别。

最后就是OpenAI这GPT(Generative Pre-trained Transformer)出现,这个模型出现为代表,我们就正式进入了这种超大模型和模型统一的时代。从谷歌T5(Text-to-Text Transfer Transformer)这个模型开始的时候,它是引入了的这样的一个模式来训练模型。也就是说,它是把提示词告诉模型,然后把答案训练出来,然后不停的用这样的模式来训练模型。那么当我们在问模型这些问题的时候,其实也是通过,通过提示词,通过prompt的方式来引导它。所以到这个时代的时候呢,那我们以chatgpt为代表,我们发现它的效果非常惊艳。最新的成果就是说,我们的大模型已经支持了多模态,OpenAI开启的这个大模型时代呢,它其实是把这个,一种基于的这种训练模型这种方式提了出来。

所以我们为什么开始一讲就是说,它整个的大模型的发展,可以说是从一个从点到面的这么一个发展过程。大家知道理解就是它最核心,其实最早的是基于这个词向量的这么一个技术。那么通过这个不断的发展到神经网络,到这种单线的,到并行训练,最后直到这样的一个大规模超大规模的这样一个训练集,实现了这么一个大语言的一个模型的发展。

关注我,紧跟本系列专栏文章,咱们下篇再续!

作者简介:魔都技术专家,多家大厂后端一线研发经验,在分布式系统、和大数据系统等方面有多年的研究和实践经验,拥有从零到一的大数据平台和基础架构研发经验,对分布式存储、数据平台架构、数据仓库等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。

负责:

  • 中央/分销预订系统性能优化

  • 活动&优惠券等营销中台建设

  • 交易平台及数据中台等架构和开发设计

  • 车联网核心平台-物联网连接平台、大数据平台架构设计及优化

    目前主攻降低软件复杂性设计、构建高可用系统方向。

参考:

  • 编程严选网

    本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1612488.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于pytest自动化测试框架分享

一、pytest运行方式与基本规范 1.简单介绍 pytest是一个非常成熟的全功能的Python测试框架,主要有以下几个特点: 简单灵活,容易上手支持参数化能够支持简单的单元测试和复杂的功能测试,还可以用来做Web UI自动化测试&#xff0…

第 7 章 导航实现(自学二刷笔记)

重要参考: 课程链接:https://www.bilibili.com/video/BV1Ci4y1L7ZZ 讲义链接:Introduction Autolabor-ROS机器人入门课程《ROS理论与实践》零基础教程 准备工作 请先安装相关的ROS功能包: 安装 gmapping 包(用于构建地图): sudo apt inst…

详细UI色彩搭配方案分享

UI 配色是设计一个成功的用户界面的关键之一。UI 配色需要考虑品牌标志、用户感受、应用程序的使用场景,这样可以帮助你创建一个有吸引力、易于使用的应用程序。本文将分享 UI 配色的相关知识,帮助设计师快速构建 UI 配色方案,以满足企业的需…

webgl canvas系列——animation中基本旋转、平移、缩放(模拟冒泡排序过程)

文章目录 ⭐前言⭐canvas绘制图片💖状态保存和恢复💖移动、旋转、缩放、变形💖移动绘制一个渐变的box💖旋转💖缩放 ⭐模拟冒泡排序过程⭐结束 ⭐前言 大家好,我是yma16,本文分享webgl canvas系…

EMD分解

ref:【EMD经验模态分解-哔哩哔哩】 https://b23.tv/LfepZjU 流程: IMF 固有模态函数 imf1 迭代直到是一个imf 8次迭代后,满足是一个imf residual的得到:原始信号-均值(上下包络线的均值) imf2 为什么时序…

【公司UI自动化学习】

公司课程链接:https://l.jd.com/student/project/project.du?project_id697509403 公司的课程,是给一个学习方向。 一、 PC自动化 1)什么项目适合 2)PC自动化介入时间点 3)自动化率: 频繁改动的&…

【Harmony3.1/4.0】笔记二

概述 列表是一种复杂的容器,当列表项达到一定数量,内容超过屏幕大小时,可以自动提供滚动功能。它适合用于呈现同类数据类型或数据类型集,例如图片和文本。在列表中显示数据集合是许多应用程序中的常见要求(如通讯录、…

深度学习500问——Chapter08:目标检测(2)

文章目录 8.2.4 R-FCN 8.2.5 FPN 8.2.6 Mask R-CNN 8.2.4 R-FCN R-FCN 有哪些创新点 R-FCN仍然属于two-stage目标检测算法:RPN R-FCN Fully convolutional位置敏感得分图(position-sentive score maps) our region-based detector is ful…

java-Spring-入门学习-第二天(单例模式和多例模式)

目录 Bean作用域 单例模式(默认可以不写) Spring下的 AutoWired 依赖注入 JaveEE下的 Resource 依赖注入 多例模式 Bean作用域 ​在Spring框架中,Bean是按照作用域来创建的,常见的作用域有两种:Singleton 和 Prototype。Singleton (单例…

6.SpringBoot 日志文件

文章目录 1.日志概述2.日志作用3.使用和观察日志3.1如何观察日志3.2使用日志3.3日志级别3.4日志持久化3.5日志分割 4.日志框架4.1门面模式(外观模式)4.2 SLF4J框架介绍4.3 日志格式的说明4.3.1日志名称 5.日志颜色设置6.总结 大家好,我是晓星航。今天为大家带来的是…

【Java】HashMap、HashTable和ConcurrentHashMap的区别

文章目录 区别一、HashMap1.1基本定义与特性1.2工作原理与实现1.3常用方法1.4性能与优化 二、HashTable三、ConcurrentHashMap3.1基本特点3.2实现原理3.3常用方法3.4适用场景3.5性能优化 HashTable、HashMap和ConcurrentHashMap之间的区别主要体现在线程安全、继承关系与实现接…

(2024|ICLR,变分扩散模型(VDM),可学习编码器,时间相关的均值函数)DiffEnc:使用学到的编码器进行变分扩散

DiffEnc: Variational Diffusion with a Learned Encoder 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 2. 变分扩散模型的基础 3. DiffEnc 4. 编码器和生成模型的参数化 …

Linux--地址空间

目录 看一个现象 基本概念 细节问题--理解它 1.如何理解地址空间? 2.为什么要有地址空间? 3. 进一步了解页表和写时拷贝 4.如何理解虚拟地址? 看一个现象 先通过一段代码,看一看现象 int g_val 100;int main() {printf(&quo…

Linux 认识与学习Bash——2

1 read 从键盘读取变量的值 read 后面不带变量,那么默认会给REPLY变量赋值 #!/bin/bash echo -n "请输入你的名字:" read name echo "欢迎您 $name" echo "----------------"echo -n "请输入你的名字2:&q…

我与深拷贝

前言 最近在掘金读到了一篇文章《Radash 能取代 Lodash???真幽默 - 掘金》,文章的评论区讨论起了深拷贝。"深拷贝" 我的"老朋友",还记得在学习我人生中的第二道面试题的时候认识了它,…

CSS 画一个三角形

一、前言 在前端开发的时候,我们有时候会需要用到一个三角形的形状,比如地址选择或者播放器里面播放按钮 通常情况下,我们会使用图片或者svg去完成三角形效果图,但如果单纯使用css如何完成一个三角形呢? 实现过程似…

物理学视角讲解diffusion生成模型——隐扩散模型

https://zhuanlan.zhihu.com/p/692996885 https://zhuanlan.zhihu.com/p/693255617 前面两篇文章介绍了扩散过程,同时实现了1维、2维混合高斯扩散、逆扩散,通过模型预测得分函数来实现逆扩散推理。这个章节介绍工业界使用的文本生成图扩撒模型&#xff1…

基于SSM+Jsp+Mysql的多人命题系统

开发语言:Java框架:ssm技术:JSPJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包…

frp改造Windows笔记本实现家庭版免费内网穿透

文章目录 前言frp原理Windows服务端IP检验IP固定软件下载端口放行端口映射开机启动 NAS客户端端口查询软件下载端口检验穿透测试自启设置 Ubuntu客户端软件下载后台启动 后记 前言 之前一直用花生壳远程控制一个服务器,但最近内网的网络策略似乎发生了变化&#xf…

InfiniGate自研网关实现思路二

5.HTTP请求参数解析 解析 HTTP 网络请求的参数信息,包括;GET/POST,以及应对不同 Content-Type 类型的处理。 HTTP 接口请求的参数需要解析成可以匹配到 RPC 接口的入参信息,所以通常为了方便控制一般只支持 RPC 接口单个对象入参…