机器学习笔记:李宏毅chatgpt 大模型 大资料

news2024/11/27 0:20:43

1 大模型

1.1 大模型的顿悟时刻

Emergent Abilities of Large Language Models,Transactions on Machine Learning Research 2022

模型的效果不是随着模型参数量变多而慢慢变好,而是在某一个瞬间,模型“顿悟”了

这边举的一个例子是,比如让模型回答鸡兔同笼问题 

  • 一开始小模型什么都学不到,故而效果不好 
  • 随着模型参数量增大,模型慢慢地会一定地推导了,但是还是得不到正确的推导结果——此时仍然不得分
  • 只有当参数量达到某一个数值之后,不仅会推导,还得到了正确的答案
  • ——>此时才得分

 1.2 inverse scaling prize? U shape

Inverse scaling can become U-shaped 2022

大部分任务是随着模型的变大,效果越来越好,那么有没有某些任务/问题,是模型变大效果反而变差的呢?

 

答案是有的,这里列了一些:

  

但是,真的是模型参数量变大模型表现反而不好嘛?

 

于是这篇论文进一步扩大模型参数量,发现模型表现跌到一定程度后,还是会涨精度

——>在这些任务中,performace 和参数量的关系是U shape的

 

 

而这种带Ushape的任务,这篇论文认为,大多数是“带陷阱(干扰项)”的问题。当模型稍微获得一点能力的时候,就很有可能陷入这个陷阱中。但模型参数量进一步扩大,就会知道这是个“陷阱”,从而找到正确的答案

2 大资料

2.1 两种认知

When Do You Need Billions of Words of Pretraining Data?  2020

语言模型一般需要两种认知

  • 一种是对语言本身语法、文法的认知(深蓝色曲线)
    • 这一部分不需要很多的语料,有一些资料供学习就够了
  • 另一种是对语言背后世界运行规律的认知
    • 这一部分就需要大量的语料喂入了

2.2 数据处理

Scaling Language Models: Methods, Analysis & Insights from Training Gopher 2021
如何收集这些资料呢?

 

  • 过滤有害内容(比如黄色、暴力的内容)
  • 去除HTML tag
    • 从网站上爬资料的话,会有很多无用的HTML 语言
    • 但是也不是所有的HTML tag都去掉,会保留一些如换行符等有用的知识
  • quality filtering
    • 在论文中有详细的规则,介绍了如何去除低品质资料
  • 去除重复资料
    • 后面会有论文专门说重复资料的影响
  • test-set filter
    • 需要把用来测试的那一部分语料去掉,不然就相当于提前学了这一部分内容,导致测试结果不准

2.3 重复数据的影响

Deduplicating Training Data Makes Language Models Better 2021
  • 比如如上的语料库中,中间这一段话出现了6W多次 
  • 我们分不同的层级,去除掉语料库中重复的部分,然后喂入语言模型,让语言模型随便说一段话。
    • 将这一段话和语料库进行对比,看看模型是学习了语料库中的内容,生成了新的语句,还是仅仅死记硬背了语料库中的内容
    • 表格中的数字就是有多少比例生成的语句是和语料库中的语句极为相似
  • 可以发现如果语料库中重复的语句过多,机器很容易直接复述之前的内容

2.4 固定的计算资源下,应该更大的模型,还是更多的资料?

Training Compute-Optimal Large Language Models 2022

  • 每一条虚线都表示具有相同的运算资源
  • 纵轴表示预测的效果(Loss),越小表示预测的越好
  • 横轴表示模型参数量
  • 可以看到 小模型大资料 和 大模型小资料 效果都不如一个折衷的配置
    • 小模型大资料:看了很多资料,  但是不学习(学而不思)
    • 大模型小资料:思而不学

  •  于是论文把所有计算资源配置下的,各个U型曲线的最低点找到,然后进行外推
  • 得到一个和Gopher计算资源一样的情况下,模型参数和资料的最佳配置组合(命名为Chinchilla)

 

 可以发现Chinchilla几乎完胜

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/867399.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

剪映:制作特效的常用方法

在创作短视频时,常常需要为一些镜头添加或制作特效,以增加趣味性、提升影片的艺术渲染力。本文介绍几种在剪映专业版中快速添加或制作特效的常用方法。 一、使用特效库 在“特效”库中提供了大量的特效供下载使用。找到自己中意的特效,直接拖…

alphassl便宜通配符SSL证书推荐

AlphaSSL是一家提供SSL证书的CA认证机构,其证书可以保护网站的安全性,防止黑客攻击和信息泄露。AlphaSSL的证书价格实惠,安全性高,AlphaSSL的证书还可以与各种服务器和网站平台兼容,包括Apache、IIS、Tomcat和Nginx等。…

【C# 基础精讲】类和对象的概念

在面向对象编程(Object-Oriented Programming,OOP)中,类和对象是两个核心概念,用于描述和实现现实世界中的实体和关系。OOP 是一种编程范式,通过将数据和操作封装为对象来组织和管理代码,使得代…

大模型时代,如何重塑AI人才的培养?知名高校专家为您解答

当下,随着人工智能技术的快速发展,大模型已经成为了人工智能发展的新方向,同时也对新时代AI人才的需求和培养带来了新的思考与挑战,需要结合当下社会对复合型AI人才的需求进行新思考,创新AI人才培养模式,以…

基于frida检测demo来学习frida检测及anti

原文地址:https://www.zhuoyue360.com/crack/108.html 前言 随着逆向的攻防强度不断的提升,目前主流的移动安全厂商的加固服务基本上都已包含了常见Hook框架的反调试,我们最常见的hook工具如下: fridaxposed 为了更好的提升自己相关的经验,我们可以拿这类demo来进行原理的学…

如何限制运行时间的一则考虑

在日常使用中,会遇到限制过期时间的问题,但是,对于时间的判断,很难找到一个信任根!如果没有信任根,这个问题其实无从判断。 从实用的角度来设计,我们假定可以找到一个相对可信的信任根&#xf…

从零实战SLAM-第三课(李群与李代数)

在七月算法报的班,老师讲的蛮好。好记性不如烂笔头,关键内容还是记录一下吧,课程入口,感兴趣的同学可以学习一下。 --------------------------------------------------------------------------------------------------------…

2023年中国负极石墨用坩埚市场规模现状及前景分析:负极材料为行业增长助推器[图]

负极石墨用坩埚分为再生坩埚和石墨匣钵,其中,再生坩埚主要应用于艾奇逊炉工艺的石墨化工序,石墨匣钵主要应用于预碳化和碳化工序。 负极石墨用坩埚分类 资料来源:共研产业咨询(共研网) 得益于动力电池的旺…

Git Cherry-pick使用

概述 无论项目大小,当你和一群程序员一起工作时,处理多个 Git 分支之间的变更都会变得很困难。有时,与其把整个 Git 分支合并到另一个分支,不如选择并移动几个特定的提交。这个过程被称为 "挑拣", 即 Cherry-pick。 本…

java获取到heapdump文件后,如何快速分析?

简介 在之前的OOM问题复盘之后,本周,又一Java服务出现了内存问题,这次问题不严重,只会触发堆内存占用高报警,没有触发OOM,但好在之前的复盘中总结了dump脚本,会在堆占用高时自动执行jstack与jm…

百度云盘发展历程与影响

摘要: 百度云盘作为中国领先的云存储与共享服务提供商,自其创立至今经历了多个阶段的发展与变革。本论文通过对百度云盘的历史回顾与分析,探讨了其在技术、商业模式、用户体验以及对社会的影响等方面的演变。同时,还分析了在竞争激…

谈谈Java开发语言

目录 1.概念 2.特点 3.应用领域 4.就业情况 1.概念 Java是一种面向对象的编程语言,它由James Gosling和他的团队在1995年于Sun Microsystems(现在是Oracle Corporation)开发出来。Java的设计目标是让开发者能够编写一次代码,在…

服务器安装Tomcat

下载Tomcat 下载地址在这: Tomcat官网 下载完成以后把压缩包上传到服务器中(我传到了www/java),进行解压(解压到),如果没有进行指定解压到哪里,默认是到root文件夹中 tar -zxvf /www/java/apache-tomcat-9.0.103.tar.…

策略模式实战应用

场景 假设做了个卖课网站,会员等级分为月vip、年vip、终生vip,每个等级买课的优惠力度不一样,传统的写法肯定是一堆的 if-else,现在使用策略模式写出代码实现 代码实现 策略模式的核心思想就是对扩展开放,对修改关闭…

Leetcode33 搜索旋转排序数组

题解: /*** 旋转排序数组可分为N1 N2两个部分,如:[4,5,6,7,1,2,3],N1为[4,5,6,7],N2为[1,2,3]** 必然满足以下两个条件:* 1. N1和N2都是分别递增的;* 2. N1中的所有元素大于N2中的所有元素;** …

matlab解常微分方程常用数值解法1:前向欧拉法和改进的欧拉法

总结和记录一下matlab求解常微分方程常用的数值解法,本文先从欧拉法和改进的欧拉法讲起。 d x d t f ( x , t ) , x ( t 0 ) x 0 \frac{d x}{d t}f(x, t), \quad x\left(t_{0}\right)x_{0} dtdx​f(x,t),x(t0​)x0​ 1. 前向欧拉法 前向欧拉法使用了泰勒展开的第…

GitOps实践 | 企业生产环境Jenkins流水线分享,从Gitlab到镜像构建到部署测试以及企业微信消息通知...

关注回复【学习交流群】加入【安全开发运维】答疑交流群 目录: 0x00 前言简述 描述: 当前在企业内部开发中最常用的CI/CD(持续集成和交付),总是可以看到Jenkins(大叔)的身影,其作为老牌开源的CI/CD工具&…

【Minecraft】Fabric Mod开发完整流程3 - 配方与挖掘等级

目录 新配方工作台配方无序合成配方有序合成配方 熔炉配方 挖掘等级与掉落物挖掘等级标准等级配置易错点分析 战利品与掉落物普通方块掉落物矿石方块掉落物 新配方 工作台配方 为便于你快速创建配方,可以直接去这个网站上通过拖拽的方式创建属于你的配方表&#xf…

9.3.1网络原理(应用层)

HTTP和HTTPS后面的博客会另外介绍. 一.设计应用层协议: 1.明确当前请求和响应中包含哪些内容. 2.明确具体请求和响应格式. 网络上传输的数据,本质上就是字符串(无法直接传对象). 序列号:发送数据的时候,把对象转化成二进制字符串.(注意,网络上传输的数据统一为大端字节序…

基于飞桨图学习框架实现的城市地点动态关系挖掘

李双利 飞桨开发者技术专家(PPDE),百度研究院商业智能实验室研究实习生,中国科学技术大学在读博士生。 主要进行时空数据挖掘和图深度学习的相关研究工作。曾获2021年百度研究院年度优秀实习生,有多篇基于飞桨完成的论…