NLP领域的突破催生大模型范式的形成与发展

news2024/11/19 18:33:09

       当前的大模型领域的发展,只是范式转变的开始,基础大模型才刚刚开始改变人工智能系统在世界上的构建和部署方式

1、大模型范式

1.1   传统思路(2019年以前)

       NLP领域历来专注于为具有挑战性的语言任务定义设计系统,其愿景是擅长这些任务的模型将为下游应用程序带来胜任的语言系统。NLP任务包括针对整个句子或文档的分类任务(例如,情感分类,如预测电影评论是正面的还是负面的),序列标记任务,其中我们对句子或文档中的每个单词或短语进行分类(例如,预测每个词是动词还是名词,或者哪个词的跨度指的是人还是组织),跨度关系分类,(例如,关系提取或解析,如人和位置是否通过当前居住地关系链接,或动词和名词是否通过主语-动词关系链接)和生成任务,产生条件化的新文本强烈地依赖于输入(例如,生成文本的翻译或摘要,识别或生成语音,或在对话中做出响应)。在过去,NLP任务有不同的研究社区,开发特定于任务的架构,通常基于不同模型的管道,每个模型执行语言子任务,如标记分割,句法分析或共指消解。

1.2  2019年的突破

       基础模型来自于NLP领域的发展,并迅速抢占了其他诸多领域的注意力。分水岭是2019年,一石激起千层浪!在2019年之前,使用语言模型的自监督学习基本上是NLP的一个子领域,它与NLP的其他发展并行。在2019年之后,使用语言模型的自监督学习越来越成为NLP的基础,因为使用BERT已经成为常态。接受单一模型可以用于如此广泛的任务,标志着基础模型时代的开始。具体来说,自我监督学习的一波发展- BERT 、 GPT-2 ,RoBERTA ,T5,BART -迅速跟进,采用Transformer架构,结合更强大的句子深度双向编码器,并扩展到更大的模型和数据集。

基础大模型范式的兴起已经开始在口语和书面语中发挥类似的作用。现代自动语音识别(ASR)模型,如wav2vec 2.0,仅在语音音频的大型数据集上进行训练,然后在音频上进行调整,并与ASR任务相关联[Baevski et al. 2020]。由于基础模型范式带来的变化,NLP研究和实践的重点已经从为不同任务定制架构转移到探索如何最好地利用基础模型。对适应方法的研究已经蓬勃发展,基础模型的惊人成功也导致研究兴趣转向分析和理解基础模型基础模型所展示的成功生成也导致了对语言生成任务(如摘要和对话生成)的研究的蓬勃发展。

1.3 大模型范式的形成(2019年以后)

   大模型+微调 :   

       执行每个任务的主要现代方法是使用单个基础大模型,并使用相对少量的特定于每个任务的注释数据(情感分类,命名实体标记,翻译,摘要)对其进行稍微调整,以创建适应模型。事实证明,这是一种非常成功的方法:对于上面描述的绝大多数任务,稍微适应任务的基础模型大大优于以前的模型或专门为执行该任务而构建的模型管道。

     标注的力量:

       万物数字化、语言标注万物(人类智能综合的缩影,表现形式,语言文字,形态:论文、书籍、网络资料、文章、话语、视频等等一切形态)

2、 大模型范式在研究界的发展

1)研究界的同质化。例如,类似的基于变换器的序列建模方法核心共性挑战)现在应用于文本[Devlin et al. 2019;拉德福et al. 2019; Raffel et al. 2019],图像[Dosovitskiy et al. 2020; Chen et al. 2020 d]、语音[Liu et al. 2020 d]、表格数据[Yin et al. 2020]、蛋白质序列[Rives et al. 2021]、有机分子[Rothchild et al. 2021]、和强化学习[Chen et al. 2021 b; Janner et al. 2021]。这些例子指出了一个可能的未来,我们有一套统一的工具来开发各种模式的基础模型[Tamkin et al. 2021 b]。

2)研究社区之间的实际模型以多模态模型的形式同质化-例如,基于语言和视觉数据训练的基础模型[Luo et al. 2020; Kim et al. 2021 a; Cho et al. 2021; Ramesh et al. 2021;拉德福et al. 2021]。数据在某些领域自然是多模态的,例如,医疗图像、结构化数据、医疗保健中的临床文本(医疗保健)。因此,多模态基础模型是融合关于一个领域的所有相关信息的自然方式,并适应也跨越多个模式的任务。基金会的模式也导致了规模的惊人的出现。例如,GPT-3 [Brown et al. 2020],与GPT-2的15亿个参数相比,有1750亿个参数,允许上下文学习,其中语言模型可以通过简单地向下游任务提供提示(任务的自然语言描述)来适应下游任务,这是一种既没有专门训练也没有预期出现的新兴属性。

3、大模型范式的未来

      有巨大的经济激励来推动基础大模型的能力和规模,因此我们预计未来几年将取得稳步的技术进步。但是,一项主要依赖于紧急行为的技术是否适合广泛部署到人们身上还不清楚。很明显,我们需要谨慎,现在是建立专业规范的时候了,这将使负责任的研究和部署基础模型成为可能。学术界和工业界需要在这方面进行合作:工业界最终会就如何部署基础模型做出具体决定,但我们也应该依靠学术界,因为学术界的学科多样性和围绕知识生产和社会效益的非商业激励措施,为技术和道德基础的基础模型的开发和部署提供独特的指导。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1196084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenCV C++ 图像处理实战 ——《多二维码识别》

OpenCV C++ 图像处理实战 ——《多二维码识别》 一、结果演示二、zxing库配置2.1下载编译三、多二维码识别3.1 Method one3.1.1 源码3.2 Method two3.2.1 源码四、源码测试图像下载总结一、结果演示 </

王道数据结构课后代码题p150 15.设有一棵满二叉树(所有结点值均不同),已知其先序序列为 pre,设计一个算法求其后序序列post。(c语言代码实现)

对一般二叉树&#xff0c;仅根据先序或后序序列&#xff0c;不能确定另一个遍历序列。但对满二叉树&#xff0c;任意一个结点的左、右子树均含有相等的结点数&#xff0c;同时&#xff0c;先序序列的第一个结点作为后序序列的最后个结点。 本题代码如下 void pretopost(char …

目标检测最新创新点: EMS-YOLO:首个用于目标检测的直接训练脉冲神经网络

EMS-YOLO&#xff1a;第一个用于目标检测的深度直接训练脉冲神经网络&#xff0c;首次使用代理梯度训练深度 SNN 进行检测&#xff0c;并设计全脉冲残差块EMS-ResNet&#xff0c;代码刚刚开源&#xff01;单位&#xff1a;国科大, 西安交大, 清华, 北大, 华为 脉冲神经网络 (S…

【MybatisPlus】条件构造器、自定义SQL、Service接口

&#x1f40c;个人主页&#xff1a; &#x1f40c; 叶落闲庭 &#x1f4a8;我的专栏&#xff1a;&#x1f4a8; c语言 数据结构 javaEE 操作系统 Redis 石可破也&#xff0c;而不可夺坚&#xff1b;丹可磨也&#xff0c;而不可夺赤。 MybatisPlus 一、条件构造器1.1 基于QueryW…

使用 huggingface_hub 镜像下载 大模型

download.py &#x1f447; import os # 配置 hf镜像 os.environ[HF_ENDPOINT] https://hf-mirror.com# 设置保存的路径 local_dir "XXXXXX"# 设置仓库id model_id "sensenova/piccolo-large-zh"cmd f"huggingface-cli download --resume-downlo…

Android---MVP 中 presenter 声明周期的管理

我们经常在 Android MVP 架构中的 Presenter 层做一些耗时操作&#xff0c;比如请求网络数据&#xff0c;然后根据请求后的结果刷新 View。但是&#xff0c;如果按返回结束 Activity&#xff0c;而 Presenter 依然在执行耗时操作。那么就有可能造成内存泄漏&#xff0c;严重时甚…

Pytorch常用的函数(四)深度学习中常见的上采样方法总结

Pytorch常用的函数(四)深度学习中常见的上采样方法总结 我们知道在深度学习中下采样的方式比较常用的有两种&#xff1a; 池化 步长为2的卷积 而在上采样过程中常用的方式有三种&#xff1a; 插值 反池化 反卷积 不论是语义分割、目标检测还是三维重建等模型&#xff0…

使用迁移学习在线校准深度学习模型

使用迁移学习在线校准深度学习模型 本文参考的是2023年发表于Engineering Applications of Artificial Intelligence, EAAI的Deep Gaussian mixture adaptive network for robust soft sensor modeling with a closed-loop calibration mechanism 1. 动机 概念漂移导致历史训…

基于SSM的科技公司门户网站

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

幸运素数(找出给定区间的所有幸运素数)

从键盘输入一个区间&#xff0c;程序判定输出区间的所有幸运素数。 (笔记模板由python脚本于2023年11月11日 12:44:43创建&#xff0c;本篇笔记适合熟悉python整型数据类型和基本编程技巧的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.o…

如何将NetCore Web程序独立发布部署到Linux服务器

简介 在将 .NET Core 应用程序部署到 Linux 服务器上时,可以采用独立发布的方式,以便在目标服务器上运行应用程序而无需安装 .NET Core 运行时。本文介绍如果将NetCore Web程序独立发布部署到Linux服务器。 1、准备一台服务器 服务器配置:2核2G 系统环境:Alibaba Cloud…

解决win11更新后,文件夹打不开的bug

更新win11系统了&#xff0c;给我更了个bug&#xff0c;找了好多解决方案&#xff0c;发现下面这个可以解决问题。 第一步 找到注册表 第二步 备份注册表 为了防止意外情况&#xff0c;备份注册表。如有意外问题&#xff0c;可以导入导出的注册表进行恢复。 第三步 删除指定…

Android 解决CameraView叠加2个以上滤镜拍照黑屏的BUG (一)

1. 前言 这段时间&#xff0c;在使用 natario1/CameraView 来实现带滤镜的预览、拍照、录像功能。 由于CameraView封装的比较到位&#xff0c;在项目前期&#xff0c;的确为我们节省了不少时间。 但随着项目持续深入&#xff0c;对于CameraView的使用进入深水区&#xff0c;逐…

程序员千万不能去这些公司,听一下我这个学长的经验。

俗话说“条条大路通罗马”&#xff0c;但是对于程序员来说&#xff0c;有些路千万别走&#xff0c;走得越久越难以抽身&#xff0c;甚至说毁掉你的职业生涯。 今天来跟大家讲一下&#xff0c;作为程序员&#xff0c;有些公司千万不要进去&#xff0c;你以为稀松平常&#xff0…

华为防火墙vrrp+hrp双机热备负载分担(两端为交换机)

主要配置&#xff1a; FW1 hrp enable hrp interface GigabitEthernet1/0/2 remote 172.16.0.2 interface GigabitEthernet1/0/0 这里可以假想为接两条外线&#xff0c;一条外线对应一个vrrid undo shutdown ip address 1.1.1.2 255.255.255.0 vrrp vrid 3 virtual-ip 1.1.1…

基于SpringBoot的SSMP整合案例(实体类开发与数据层开发)

实体类开发 导入依赖 Lombok&#xff0c;一个Java类库&#xff0c;提供了一组注解&#xff0c;简化POJO实体类开发<dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId> </dependency>lombok版本由SpringB…

LeetCode【215】数组中第k大的元素

题目&#xff1a; 思路&#xff1a; https://zhuanlan.zhihu.com/p/59110615 代码&#xff1a; public int findKthLargest(int[] nums, int k) {PriorityQueue<Integer> queue new PriorityQueue<>((o1, o2) -> o1 - o2);for (int i 0; i < nums.lengt…

刚学C语言太无趣 推荐一个好用易学的可视化框架:EasyX。VC6.0就能写

很多同学在大一刚学C语言时&#xff0c;是不是很好奇为什么别人编程都在做软件&#xff0c;而自己只能面对着黑窗口进行 printf &#xff1f; EasyX&#xff0c;C语言可视化编程。 分享我大一时候做的一个项目&#xff0c;用 VC6.0 开发的一款画图软件&#xff1a; 这个软件源…

02MyBatisPlus条件构造器,自定义SQL,Service接口

一、条件构造器 1.MyBatis支持各种复杂的where条件&#xff0c;满足开发的需求 Wrapper是条件构造器&#xff0c;构建复杂的where查询 AbstractWrapper有构造where条件的所有方法&#xff0c;QueryWrapper继承后并有自己的select指定查询字段。UpdateWrapper有指定更新的字段的…

bat脚本设置变量有空格踩到的坑

SET PATH c:\xxx;%PATH% 我想把一个路径作为path环境变量最前面的一个&#xff0c;所以使用了上面的语句。 但是没有生效&#xff0c;我还以为是其他什么原因&#xff0c;后来又有一个类似的需求&#xff1a; set output output\x64 结果在使用 %output% 的时候是一个空格&…