我把GPT 的学习轨迹可视化了竟和人类十分类似 |ACL2023

news2025/1/11 6:25:33

8d15dc752af1a96836519a670b26d3c0.jpeg
回想一下我们小时候是如何习得一门语言的?一般而言,在人类婴儿出生第一年内,最开始婴儿只能模仿式的说出一些“音素”,说出一些最简单与基本的单词或句子,而伴随着成长,在大约一岁到三岁的阶段,婴儿开始可以掌握并说出一些最基本的句法结构,开始可以将最开始的模仿式的割裂的单词拼接组成一个句子,比如“The boy sang”,“The boy fell”,而再长大一点小孩才会逐渐学会更加复杂的嵌套式的句法结构,比如“The boy that I saw sang”,尽管这个时间分类并不准确,但是儿童的学习阶段的顺序大致可以被如此刻画。

bdbc081518cd2ee13f688ff3c006ea1c.jpeg


而最近,来自 Meta AI 以及巴黎文理研究大学与巴黎萨克雷大学的研究者们却发现了一个有趣的现象,GPT 模型对语言进行学习的顺序十分类似人类儿童对语言进行学习的顺序,遵循一个由易到难由浅入深,往往先学会简单的表达再去组成复杂的长句。作为统计模型的 GPT 与人类儿童的语言习得表现出的相似性将有助于人们对二者进行结合分析,得出更多有趣的结论。

论文题目:

Language acquisition: do children and language models follow similar

论文链接:

https://arxiv.org/pdf/2306.03586.pdf

语言技能的学习可以由“顺序”与“并行”两种模型进行描述,顺序学习是指在完全掌握简单技能前不会开始复杂技能的学习,而并行学习则指简单与复杂技能的学习是并行的可以同时进行习得。顺序与并行的差异表现如下图所示:

1d68ee1eca33df6382a804be011e8c94.jpeg

通过援引前人对儿童语言习得阶段分类的研究,这篇文章将儿童的语言习得分为三个阶段,分别是最开始的简单句阶段到复杂一点的由 What,How 等引导的句子,最后到更加复杂一点的 Why 引导的句子以及关系从句等等:

8a4cfa6efe93a2c1331b1cf7b7336db3.jpeg

基于上述分类的三个阶段,作者为每个阶段选取一组语言探针(Linguistic Probes)作为“阶段能力测试”如下图所示

bfcbef339335dccc41653f562da11988.jpeg

具体到训练执行,作者主要的思路是通过从头开始训练 48 个 GPT-2 模型,在每 100 次训练后对模型进行一次评估,观察这 48 个 GPT-2 模型的“语言能力”。而如何评估所谓语言能力这种抽象概念呢,作者团队针对希望评估的语言模型不同的语言技能,从三个开源的测试基准 BLIMP、Zorro和BIG-Bench 中选择了 96 个语言探针对 GPT-2 进行了语言测试,以 Softmax 层的输出比较符合语法与不合语法的句子的总体占比,以评估模型是否掌握了当前语言探针代表的语言能力。同时,为了不失测试的一般性,作者在 48 个 GPT-2 模型得到的语言习得率数据中进行了不同的检验,以验证习得这些语言技能的顺序在所有 GPT-2 类模型间都是共享的。

而最终得到语言能力学习的系统轨迹结果如下图所示:

83fd45c129c1e6e7972d5e75a20dc9fa.jpeg

从上图的右列可以明显看出技能的获取时间与语言技能的三个阶段有直接关系,高级的阶段技能获取时间更长,模型类似人类儿童有一个从易到难的系统的学习轨迹。但是,通过将 64 个语言探针以技能获取时间早晚划分早期、中期与晚期三组,并比较随着训练轮次增加其组内准确率的变化情况如下图所示,可以看到三个 Group 都有一个明显的从训练开始阶段就提升的过程,这表明 GPT-2 的学习轨迹事实上是并行的,但是从学习速率角度来看,三组的学习速率有明显的不同,早期组学习速率较快而晚期组则相对较慢。

b9569e25d170ef4559067d7ae006a044.jpeg

而再将 GPT-2 模型的训练轨迹与人类儿童的行为进行对比,可以观察到 Children 的学习顺序与 GPT-2 的学习顺序大致匹配,似乎模型与儿童以相似的顺序来习得语言技能,结果如下图所示:

421dd2c34793302ab5db3afcb99b8d1c.jpeg

总结与讨论

作为一种“统计模型”,不可否认的是这些语言学习的时间与语言现象在自然语言中的发生频率相关,因此似乎这种从易到难的学习策略与模型训练数据的二八法则直接相关。并且 GPT-2 的学习过程表现得一些现象或许与一些语言学直觉并不相符,譬如在使用“Simple”探针检查简单句中得主谓一致与使用“Wh Questions Subject Gap Long Distance”探针时,直觉上将判断主谓一致要比计算问题与问题主体之间的距离要简单许多,但是在学习时间上二者相仿。同时,回想 GPT 模型无监督预训练的训练目标,从目标上讲就与儿童学习“说话”的目的导向不是很一致,尽管在实验中他们表现了类似的学习顺序。

但是如果更加深入一点思考,其实作为统计模型的 GPT-2 与作为“人类智能”的儿童在学习语言能力上的相似性与区别很像是一个在语言学中长时间存在的争论,即语言习得究竟来源于后天的经验语料的不断输入,还是类似乔姆斯基所说人类天生内含了一个“语言结构”,语言的习得本质上依赖于这种先天结构而非后天的大量训练。透过对目前似乎已经可以算作掌握了一般意义上的语言技能的 GPT 模型语言习得过程的研究,或许会有助于我们发现什么使得人类可以极其快速低成本的学会语言而模型却需要建立在巨量参数上才可以实现的原因。总的来说发现模型对语言的习得与人类对语言的习得具有的相似性有可能即有助于我们分析人类的语言习得,又有助于借助这种相似性为我们提升模型的习得有非常重要的借鉴意义


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/676820.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows进程结构体

了解进程线程的概念后,我们就来看看windows里面的进程长什么样子的。进程本质上就是一个结构体。在Linux里面也称之为进程描述符。当操作系统创建一个进程的时候,它会填充一个结构体,往这个结构体里写入数据,这个结构体就用于管理…

Queue,List,Deque联系

如图所示,可以得出LinkedList既可以是双向链表也可以是双端队列,Deque接口继承了Queue接口 Queue add(E):boolean 在队尾添加元素,添加成功返回true,如果队列已满无法添加则抛出异常。offer(E):boolean 在队尾添加元素&#xff0…

linux mail -s发送邮件异常解决

异常: Error initializing NSS: Unknown error -8015. "/root/dead.letter" 11/301 . . . message not sent. 出现此问题,大概率是和证书相关。如果没有安装证书,请先安装: 1,下载 yum -y install mailx …

Python采集某xsp内容, m3u8视频内容下载

前言 大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 环境使用: Python 3.8 Pycharm 专业版 模块使用: import requests >>> pip install requests import re 正则表达式 解析数据 import json 基本步骤去实现 一. 数据来源分析 通过开发者工具进行抓包分析, 分…

轻松构建交互式应用程序:探索Gradio Components模块的神奇世界!

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

抽头延迟线信道模型

本专栏包含信息论与编码的核心知识,按知识点组织,可作为教学或学习的参考。markdown版本已归档至【Github仓库:https://github.com/timerring/information-theory 】或者公众号【AIShareLab】回复 信息论 获取。 文章目录 时变多径信道的信道…

突破技术边界,开创“粽“享未来

突破技术边界,开创“粽“享未来 端午节的由来端午节的习俗端午祈福 博主 默语带您 Go to New World. ✍ 个人主页—— 默语 的博客👦🏻 《java 面试题大全》 🍩惟余辈才疏学浅,临摹之作或有不妥之处,还请读…

南京阿里云代理商:阿里云服务器的可扩展性和弹性如何?是否支持按需付费?

南京阿里云代理商:阿里云服务器的可扩展性和弹性如何?是否支持按需付费?   一、阿里云服务器的可扩展性   阿里云作为业界知名的云服务提供商,其服务器具有极强的可扩展性。可扩展性主要体现在以下几方面:   1. …

行为型模式--状态模式

目录 举例 状态模式 定义 结构 代码实现 优缺点 优点: 缺点: 使用场景 举例 【例】通过按钮来控制一个电梯的状态,一个电梯有开门状态,关门状态,停止状态,运行状态。每一 种状态改变,都…

Xdebug的安装及使用

Xdebug的安装及使用 前言一、Xdebug如何配置二、PHPstrom配置三、Xdebug的使用1.面板功能解释2.调试功能详解 四、Xdebug原理 前言 软件调试是泛指重现软件缺陷问题,定位和 查找问题根源,最终解决问题的过程,编写的程序不可能一直不出错,所以调试很重要调试通常有如…

西安阿里云代理商:阿里云服务器的可扩展性和弹性如何?是否支持按需付费?

西安阿里云代理商:阿里云服务器的可扩展性和弹性如何?是否支持按需付费?   一、阿里云服务器的可扩展性   阿里云作为业界知名的云服务提供商,其服务器具有极强的可扩展性。可扩展性主要体现在以下几方面:   1. …

小米note3刷机-从miui12刷回miui9

小米note3刷机-从miui12刷回miui9 文章目录 小米note3刷机-从miui12刷回miui9解除BL锁进入开发者模式遇到的问题解决BootLoader无法连接电脑的问题 导包 3月份原本想买一部小米6回来刷机,结果发现小米6的二手价格有一点点high。然后就选了一个 大平版 小米note3 但是直到昨天…

SpringBoot 如何使用 Logback 进行日志记录

SpringBoot 如何使用 Logback 进行日志记录 在开发 Web 应用程序时,日志记录是非常重要的一部分。日志可以帮助我们跟踪应用程序的运行情况,并帮助我们快速地排查问题。在 SpringBoot 中,我们可以使用 Logback 进行日志记录。Logback 是一款…

F407/103MAP文件

认识MAP文件 MDK编译工程,会生成一些中间文件(如.o、.axf、.map 等),最终生成hex文件,以便下载到MCU上面执行。这些文件分为 11 个类型,其中4种文件比较重要。 比如: 本文主要讲解map文件。 map…

第四章 死锁

目录 一、死锁的概念 1.1 什么是死锁 1.2 死锁、饥饿、死循环的区别 1.2.1 死锁 1.2.2 饥饿 1.2.3 死循环 1.2.4 三者间的异同 1.3 死锁产生的必要条件 1.3.1 互斥条件 1.3.2 不剥夺条件 1.3.3 请求和保持条件 1.3.4 循环等待条件 1.4 什么时候会发生死锁 1.5 …

深入理解Java中的synchronized

文章目录 前言正文一、多线程操作同一数据时的问题二、问题分析三、synchronized 解决问题四、synchronized 是怎么解决问题的五、Java1.6时的优化5.1 自旋锁5.2 自适应锁5.3 锁消除5.4 锁粗化5.5 偏向锁(单线程高效场景)5.2 轻量级锁(多线程…

MySQL数据表查询

😇作者介绍:一个有梦想、有理想、有目标的,且渴望能够学有所成的追梦人。 🎆学习格言:不读书的人,思想就会停止。——狄德罗 ⛪️个人主页:进入博主主页 🗼专栏系列:进入MySQL知识专…

IO、存储、文件系统的简单介绍

目录 一.什么是IO 第一类:存储器IO 第二类:设备IO 二.存储 三:文件系统 总结 一.什么是IO I(input):放入数据 O(output):取出数据 所以我们平时说的IO,实际上就是放入数据和存储数据的意思 在这里,我们一般将IO又分为两大类 第一类:存储器IO 这类IO主要针对的是计算机中…

2023年最新同步网盘排行榜,了解哪些平台适合您的文件同步需求!

在数码领域,同步盘是一个极其受欢迎的工具,它可以帮助人们在不同设备之间共享文件。作为同步盘用户,我们关心的一个很重要的问题就是,在同步盘市场上,哪些同步盘是最好的? 今天我们综合了不同的产品测评网站…

Vulnhub: Corrosion:2靶机

kali:192.168.111.111 靶机:192.168.111.131 信息收集 端口扫描 nmap -A -sC -v -sV -T5 -p- --scripthttp-enum 192.168.111.131 通过nmap脚本枚举出8080端口存在backup.zip文件,下载后解压发现需要密码,利用john爆破压缩包密…