大模型进展的主要观点综述

news2025/1/14 0:52:41

       大模型模式的意义可以用两个词来概括:涌现和同质化。涌现意味着一个系统的行为是隐含诱导的,而不是明确构建的;它既是科学兴奋的源泉,也是对意外后果的一种焦虑。同质化表示在广泛的应用程序中构建机器学习系统的方法的整合;它为许多任务提供了强大的杠杆作用,但也会产生单点故障。为了更好地理解新兴和同质化,让我们回顾一下过去30年来它们在人工智能研究中的崛起。

       人工智能的故事一直是一个不断涌现和同质化的故事。随着机器学习的引入,任务的执行方式从示例中浮现(自动推断);通过深度学习,用于预测的高级特征出现;通过基础模型,甚至出现了上下文学习等高级功能。与此同时,机器学习使学习算法(例如,逻辑回归),深度学习使模型架构同质化(例如,卷积神经网络),并且基础模型使模型本身均匀化(例如,GPT-3)

1、自然语言处理(NLP)任务中形成:大模型在NLP中已经形成,所以我们的故事暂时集中在那里。也就是说,就像深度学习在计算机视觉中普及但存在于计算机视觉之外一样,我们将基础模型理解为人工智能的一般范式,而不是以任何方式特定于NLP2018年底,NLP领域即将经历另一场地震,标志着大模型时代的开始。在技术层面上,基础模型通过迁移学习[Thrun 1998]和规模来实现。

2、迁移学习与预训练和微调:迁移学习的思想是将从一个任务中学到的知识(例如,图像中的对象识别)并将其应用于另一任务(例如,视频中的活动识别)。在深度学习中,预训练是迁移学习的主要方法:模型在代理任务上进行训练(通常只是作为达到目的的手段),然后通过微调适应感兴趣的下游任务。迁移学习使基础模型成为可能,但规模是使它们强大的原因。

   规模化需要三个要素:

1)计算机硬件的改进--例如,GPU吞吐量和内存在过去四年中增加了10;

2Transformer模型架构的开发[Vaswani et al. 2017],该架构利用硬件的并行性来训练比以前更具表达力的模型

3)更多训练数据的可用性。

3、数据的可用性和利用数据能力:不能低估数据的可用性和利用数据的能力的重要性。带标注数据集的迁移学习已经成为至少十年的常见实践,例如,在ImageNet数据集上进行预训练[Deng et al. 2009],用于计算机视觉社区的图像分类。然而,标注的高成本对预训练的好处施加了实际限制。

4、自监督学习:另一方面,在自监督学习中,预训练任务是从未标注的数据中自动导出的。例如,用于训练BERT的掩蔽语言建模任务[Devlin et al. 2019]是在给定其周围上下文的情况下预测句子中缺失的单词(例如,我喜欢豆芽)。自监督任务不仅更具可扩展性,只依赖于未标记的数据,而且它们旨在迫使模型预测部分输入,使其比在更有限的标签空间上训练的模型更丰富,可能更有用。

5、自监督学习在单词嵌入方面取得了相当大的进展[Turian et al. 2010; Mikolov et al. 2013;彭宁顿et al. 2014],它将每个单词与上下文无关的向量相关联,为广泛的NLP模型提供了基础。此后不久,基于自回归语言建模的自监督学习(根据前一个单词预测下一个单词)[Dai and Le 2015]变得流行起来。这产生了在上下文中表示单词的模型,例如GPT [拉德福等人2018],埃尔莫[Peters等人2018]ULMFiT [霍华德和Ruder 2018]

6、自我监督学习的下一波发展- BERT [Devlin等人2019] GPT-2 [拉德福等人2019]RoBERTA [Liu等人2019]T5 [Raffel et al. 2019]BART [刘易斯et al. 2020 a] -迅速跟进,采用Transformer架构,结合更强大的句子深度双向编码器,并扩展到更大的模型和数据集。

7、虽然人们可以纯粹通过自我监督学习的透镜来看待这最后一波技术发展,但BERT的引入是一个社会学转折点。在2019年之前,使用语言模型的自监督学习基本上是NLP的一个子领域,它与NLP的其他发展并行。在2019之后,使用语言模型的自监督学习越来越成为NLP的基础,因为使用BERT已经成为常态。接受单一模型可以用于如此广泛的任务,标志着大模型时代的开始。

8、同质化:大模型导致了前所未有的同质化:几乎所有最先进的NLP模型现在都是从几个基础模型中的一个改编而来的,如BERTRoBERTaBARTT5等。(基础模型的任何改进都可以为整个NLP带来直接的好处),它也是一种责任;所有人工智能系统都可能继承一些基础模型的相同问题偏差[Bolukbasi et al. 2016;卡利斯坎et al. 2017; Abid et al. 2021,阿利亚是]:公平性,伦理学以进行进一步讨论。

9、研究界的同质化:我们也开始看到研究界的同质化。例如,类似的基于变换器的序列建模方法现在应用于文本[Devlin et al. 2019;拉德福et al. 2019; Raffel et al. 2019],图像[Dosovitskiy et al. 2020; Chen et al. 2020 d]、语音[Liu et al. 2020 d]、表格数据[Yin et al. 2020]、蛋白质序列[Rives et al. 2021]、有机分子[Rothchild et al. 2021]、和强化学习[Chen et al. 2021 b; Janner et al. 2021]。这些例子指出了一个可能的未来,我们有一套统一的工具来开发各种模式的基础模型[Tamkin et al. 2021 b]

10、多模态模型的形式同质化:除了方法的同质化之外,我们还看到研究社区之间的实际模型以多模态模型的形式同质化-例如,基于语言和视觉数据训练的基础模型[Luo et al. 2020; Kim et al. 2021 a; Cho et al. 2021; Ramesh et al. 2021;拉德福et al. 2021]。数据在某些领域自然是多模态的,例如,医疗图像、结构化数据、医疗保健中的临床文本。因此,多模态基础模型是融合关于一个领域的所有相关信息的自然方式,并适应也跨越多个模式的任务。基础模型的模式也导致了规模的惊人的出现。例如,GPT-3 [Brown et al. 2020],与GPT-215亿个参数相比,有1750亿个参数,允许上下文学习,其中语言模型可以通过简单地向下游任务提供提示(任务的自然语言描述)来适应下游任务,这是一种既没有专门训练也没有预期出现的新兴属性。

11、同质化和涌现:以一种潜在的令人不安的方式相互作用。同质化可以潜在地为任务特定数据非常有限的许多领域提供巨大的收益-参见在几个这样的领域中呈现的机会(例如,医疗保健,法律,教育);另一方面,模型中的任何缺陷都会被所有适应模型盲目地继承(公平,道德)。由于基础模型的力量来自于它们的涌现特性,而不是它们明确的构造,现有的基础模型很难理解(评估,理论,可解释性),并且它们有意想不到的失败模式安全性,鲁棒性)。由于新兴市场在基础模型的能力和缺陷方面产生了很大的不确定性,因此通过这些模型进行积极的同质化是有风险的。从伦理和人工智能安全的角度来看,消除风险是基础模型进一步发展的核心挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1174850.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(14)学习笔记:动手深度学习(Pytorch神经网络基础)

文章目录 神经网络的层与块块的基本概念自定义块 问答 神经网络的层与块 块的基本概念 以多层感知机为例, 整个模型接受原始输入(特征),生成输出(预测), 并包含一些参数(所有组成层…

FreeRTOS笔记【一】 任务的创建(动态方法和静态方法)

一、任务创建和删除API函数 函数描述xTaskCreate()使用动态的方法创建一个任务xTaskCreateStatic()使用静态的方法创建一个任务xTaskCreateRestricted()创建一个使用MPU进行限制的任务,相关内存使用动态内存分配vTaskDelete()删除一个任务 二、动态创建任务 2.1 …

国内外一级市场TOP10股权投资研究报告

前言 在金融领域,令人心跳加速的时刻往往来自于那些领先群雄的成就,无论是在科技创新、生产效率还是投资回报上。想象一下,如果财富的累积只是微不足道的,那又何异于日复一日的朝九晚五呢?随着时间的推移,…

【C++】详解IO流(输入输出流+文件流+字符串流)

文章目录 一、标准输入输出流1.1提取符>>&#xff08;赋值给&#xff09;与插入符<<&#xff08;输出到&#xff09;理解cin >> a理解ifstream&#xff08;读&#xff09; >> a例子 1.2get系列函数get与getline函数细小但又重要的区别 1.3获取状态信息…

数据包端到端的流程

流程 A给F发送一个数据包的流程&#xff1a; 首先 A&#xff08;192.168.0.1&#xff09;通过子网掩码&#xff08;255.255.255.0&#xff09;计算出自己与 F&#xff08;192.168.2.2&#xff09;并不在同一个子网内&#xff0c;于是决定发送给默认网关&#xff08;192.168.0.…

307. 区域和检索 - 数组可修改

给你一个数组 nums &#xff0c;请你完成两类查询。 其中一类查询要求 更新 数组 nums 下标对应的值 另一类查询要求返回数组 nums 中索引 left 和索引 right 之间&#xff08; 包含 &#xff09;的nums元素的 和 &#xff0c;其中 left < right 实现 NumArray 类&#xff…

数据分析与数据挖掘期末复习,附例题及答案

文章目录 一、概述1.数据挖掘能做什么&#xff1f;2.数据挖掘在哪些方面有应用&#xff1f;3.数据挖掘与数据分析的区别&#xff1f;4.数据挖掘的四大类模型5.什么是数据挖掘&#xff1f;6.数据挖掘的常用方法&#xff1f; 二、数据1.余弦相似度、欧几里得距离2.近似中位数 三、…

刚入职因为粗心大意,把事情办砸了,十分后悔

刚入职&#xff0c;就踩大坑&#xff0c;相信有很多朋友有我类似的经历。 5年前&#xff0c;我入职一家在线教育公司&#xff0c;新的公司福利非常好&#xff0c;各种零食随便吃&#xff0c;据说还能正点下班&#xff0c;一切都超出我的期望&#xff0c;“可算让我找着神仙公司…

数据结构与算法【02】—线性表

CSDN系列专栏&#xff1a;数据结构与算法专栏 针对以前写的数据结构与算法系列重写(针对文字描述、图片、错误修复)&#xff0c;改动会比较大&#xff0c;一直到更新完为止 前言 通过前面数据结构与算法基础知识我们知道了数据结构的一些概念和重要性&#xff0c;那么本章总结…

新技术前沿-2023-应用GPT提问模板写技术文章

参考一份万能的GPT提问模版&#xff01;直接套用&#xff01; 参考用GPT写技术文章是真爽&#xff01; 参考码住这篇 8200 字 ChatGPT 实战指南&#xff01;&#xff01; 1 GPT提问模板 想让GPT回答的内容符合我们所希望的&#xff0c;最最重要的一点就在于我们如何提问。提问…

NFS服务以及静态路由及临时IP配置

目录 一、NFC服务基础知识 1、NFS服务初相识 2、NFS服务工作原理 二、NFC服务基础操作 1、NFS服务端配置 2、NFS服务 - exports 相关参数 3、NFS服务 - 命令相关 三、RPC 远程调度 四、静态路由及临时IP配置 1、Linux 静态路由相关命令 2、Linux 临时IP地址添加与删除…

【漏洞复现】Nginx_0.7.65_空字节漏洞

感谢互联网提供分享知识与智慧&#xff0c;在法治的社会里&#xff0c;请遵守有关法律法规 文章目录 1.1、漏洞描述1.2、漏洞等级1.3、影响版本1.4、漏洞复现1、基础环境2、漏洞扫描3、漏洞验证 1.1、漏洞描述 1.2、漏洞等级 1.3、影响版本 0.7.65 1.4、漏洞复现 1、基础环…

Redis那些事儿(三)

文章目录 1. 前言2. 常用api介绍3. 需求假设&#xff08;获取离我最近的停车场&#xff09;4. 代码示例 1. 前言 接着上一篇Redis那些事儿&#xff08;二&#xff09; &#xff0c;这一篇主要介绍Redis基于Geo数据结构实现的地理服务&#xff0c;它提供了一种方便的方式来存储和…

linux 创建git项目并提交到gitee(保姆式教程)

01、git安装与初始化设置 mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ apt install mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ git config --global user.name "用户名" mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ git config --global user.ema…

Instant-NGP论文笔记

文章目录 论文笔记 论文笔记 instant-ngp的nerf模型与vanilla nerf的模型架构相同。 instant-ngp的nerf模型包含两个MLP&#xff0c;第一个MLP就两个全连接&#xff0c;输入维度是32&#xff08;16层分辨率x2&#xff09;&#xff0c;输出是16&#xff08;用于预测密度&#x…

SpringBoot配置文件优先级

1.idea临时属性 说明&#xff1a;Program arguments配置--server.port8082 --ab&#xff1b;意思是将端口改成了8082。这个优先级最高。 2.resource 说明&#xff1a;创建config文件里面的yml文件。 3.jar包同级&#xff08;yml&#xff09; 说明&#xff1a;创建一个yml文件…

机器学习中的关键组件

机器学习中的关键组件 数据 每个数据集由一个个样本组成&#xff0c;大多时候&#xff0c;它们遵循独立同分布。样本有时也叫作数据点或数据实例&#xff0c;通常每个样本由一组称为特征或协变量的属性组成。机器学习会根据这些属性进行预测&#xff0c;预测得到的称为标签或…

平面扫描(Plane-sweeping)深度体会

先看文章 三维重建之平面扫描算法&#xff08;Plane-sweeping&#xff09;_plane sweeping_小玄玄的博客-CSDN博客 Plane Sweeping | 平面扫描 - 知乎 (zhihu.com) 注意平面Dm,这是其中一个平面&#xff0c;平面上有一个M点&#xff0c;这个点也再物体上。所以会被摄像机看到…

Idea去掉显示的测试覆盖率

一.启东时 误点击了 快捷键调出 【Ctrl 】【Alt】【F6】

优雅的 Dockerfile 是怎样炼成的?

Docker 简介 目前&#xff0c;Docker 主要有两个形态&#xff1a;Docker Desktop 和 Docker Engine。 Docker Desktop 是专门针对个人使用而设计的&#xff0c;支持 Mac&#xff08;已支持arm架构的M系芯片&#xff09; 和 Windows 快速安装&#xff0c;具有直观的图形界面&a…