大模型Founation Model

news2025/1/20 5:49:29

一、背景

自从chatgpt,gpt4以特别好的效果冲入人们的视野中,也使得AI产业发生了巨大变革,从17年以来的bert,将AI的各种领域都引入bert类的fine-tune方法,来解决单个领域单个任务的一一个预训练模型。在学术界和工业界都带来巨大变革,将AI从原来手工特征,cnn,rnn简单的特征提取升级到transformer统一结构的模型。

而本次chatgpt,gpt4以对话的形式,展示了其能力,对原有各个小领域,小数据微调的bert类模型都带了无法颠覆的冲击。将AI引入了10B-100B的大模型时代,带动了全球半导体,芯片,AI行业的大量需求。

本次大模型的应用基础论文,主要是一直以来任务无法微调的千亿参数大模型,可以通过lora方法进行微调达到很好的效果,大大降低了微调大模型的成本。

在这里插入图片描述

二、大模型介绍

虽然lora降低了对大模型微调的成本,但具体大模型的效果还是得看开源大模型的大公司预训练的效果好坏,预训练使用数据量和质量如何。

2.1 LLaMA

Large Language Model Meta AI

github地址: facebookresearch/llama

论文:LLaMA: Open and Efficient Foundation Language Models

参数量:(7B, 13B, 33B, and 65B parameters)

模型下载:目前可以在huggingface上直接下载,https://huggingface.co/decapoda-research

简介:使用较为科学的训练方式,在之前各种大模型型上取开源数据进行训练得到,性价比较高的大模型。


2.2 Chinchilla

论文: Training Compute-Optimal Large Language Models

参数量:70B

介绍:DeepMind 在开发了Gopher 后,探究成本与LLM效果关系,发现基本模型大小与使用标注数据(tokens 的数量)呈线性关系,通过小模型上开发了Chinchilla,以Gopher 1/4的参数量在效果上超过了 Gopher和GPT-3


2.3 PaLM

论文:PaLM: Scaling Language Modeling with Pathways

参数量:540B

介绍:google 之前提出的大模型,最近好像已经出了PaLM 2,应用在bard,以及google search 上了。传送门:PaLM 2


2.4 GPT-neo

code :EleutherAI/gpt-neo

介绍:使用 mesh-tensorflow 实现的类GPT-3模型。


2.5 T0PP

T Zero Plus Plus

code: bigscience-workshop/t-zero

论文:Multitask Prompted Training Enables Zero-Shot Task Generalization

介绍:使用t5结构的模型,在许多有监督数据,转换为提示任务学习类似指令微调的方法学习,得到性能提升的模型,超过GPT3的表现。


2.6 OPT

论文: Open Pre-trained Transformer Language Models

code:facebookresearch/metaseq

参数量:
在这里插入图片描述

介绍:Facebook,开发类gpt的模型,OPT-175B效果=GPT3,同时开发碳排放=1/7。


2.7 Gopher

Gopher:280B

from deepmind 2021

论文地址:Scaling Language Models: Methods, Analysis& Insights from Training Gopher


2.8 Bloom

论文:BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

参数量:176B

介绍:该模型主打多语言的LLM,在46种自然语言和13种编程语言进行训练,由BigScience组织开发,该组织旨在结合技术、法律、社会学等多学科知识来解决这些问题。该组织在两个不同时间尺度上关注两个主要的目标:设计一个长期的国际数据治理结构,该结构会优先考虑数据权利所有人,并为BigScience项目直接使用的数据提供具体建议。


2.9 GLM

参数量:130B

论文:GLM: General Language Model Pretraining with Autoregressive Blank Infilling

code :THUDM/GLM

介绍:清华团队从21年底到22年中旬持续开发的130B大模型,在中英文上都具有很高精度,超过GPT3,ernie-tianti等。


三、数据集介绍

3.1 指令微调

大模型用到的数据集可以参考指令微调的数据集,其中大部分开源数据集可以在LLaMa的论文中找到。

3.2 微调LLaMa

一般实现自己的gpt平替模型,可以用LLama在对话数据集进行微调。

四、Benchmark

4.1 WinoGrande

WinoGrande 是一个包含 44k 问题的大型数据集,其灵感来自最初的 WSC 设计,但进行了调整以提高数据集的规模和硬度。数据集构建的关键步骤包括

(1) 精心设计的众包程序

(2) 使用新颖的 AfLite 算法减少系统偏差,该算法将人类可检测的词关联概括为机器可检测的嵌入关联。

4.2 BigBench

Beyond the Imitation Game Benchmark (BIG-bench) 是一个协作基准,旨在探索大型语言模型并推断其未来的能力。 Big-bench 包括 200 多个任务。

https://opendatalab.com/BIG-bench

4.3 MMLU

MMLU(Massive Multitask Language Understanding)基准是由一系列学术科目中类似考试的问题组成。Chinchilla显著优于Gopher,平均准确率67.6%。Chinchilla甚至超越了2023年6月专家预测的63.4%准确率。

GLM在 MMLU 上略优于 GPT-3 175B(+0.9%)

4.4 LAMBADA

在单词预测数据集LAMBADA上,Chinchilla实现了77.4%的准确率,相比于Gopher的74.5%和MT-NLG 530B的76.6%。在RACE-h和RACE-m上,Chinchilla显著优于Gopher,在两个case上改善超过10%。

GLM(130B)在 LAMBADA 上优于 GPT-3 175B davinci(+4.0%)、OPT-175B(+5.5%)和 BLOOM-176B(+13.0%)

五、一些QA

4.1 为什么大模型都是decoder模型

为什么现在的LLM都是Decoder-only的架构?–苏剑林

​ 苏神主要通过性能分析了同参数量情况,decoder,较encoder-decoder模型效果好一些。

​ 我认为更多可能是通过GPT系列的实验,预测一下个词的预训练任务,更适合于超大型预料的预训练策略,相较于MLM等预训练任务,超大型预料可能后面预料会学不到更深层的语义,逻辑信息,MLM等任务相对较为简单,而类似span-mask,sentence-mask等任务针对模型,虽然任务难度上升了些,但对于模型调整需要进行适应,超大型模型需要的是广泛适应性,和可扩展性,综合各种预训练策略来看,基础的LM预训练策略更好,所以使用搭配的Decoder-only架构作为LLM的框架更为合适。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/532238.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis---事务管道

目录 一、Redis的事务是什么? 1.1 Redis和关系型数据库事务的区别 二、怎么玩Redis事务? 2.1 正常执行: 2.2 放弃事务 2.3 全体连坐 2.4 冤头债主 2.5 watch监控 三、管道 3.1 为什么会引入管道这个概念呢?我们首先来看一…

前后端分离项目部署上线流程-和错误解决

需求:就是想把自己写的前后端项目传上去不再是只有本地可以访问,其他人也可以访问我这个项目,以此记录免得后面搞忘了,文章很长,也很细,我自己上线碰到的错误也会发一下,建议看完哦 1.首先买个…

U盘连接电脑不显示怎么办?

对于很多Windows 11/10/8/7系统下的用户,U 盘、SD卡或其他移动硬盘未检测到或磁盘管理中不显示,这是一个非常普遍的问题。下面我们就来了解一下出现这种情况的常见原因和解决办法。 为什么U盘没有显示在磁盘管理中? U盘在电脑磁盘管理中不显…

GPT专业应用:生成实习报告

正文共 1070 字,阅读大约需要 4 分钟 大学生必备技巧,您将在4分钟后获得以下超能力: 快速生成实习报告 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人 | Kim 编辑者 | Linda ●图片由…

旅游网站设计方案

针对涉旅企业的旅游网站设计,主要要考虑以下几点: 1、考虑网站的业务开展需求,能够有效将衣、食、住、行、游、购、娱融合在一起,满足旅游企业的业务开展需求。 2、网站的设计结构,符合目前的网站开发结构,…

vue3鼠标经过显示按钮

在前端开发中,我们经常需要在页面中添加一些交互效果来提升用户体验。其中一个常见的需求就是鼠标经过某个元素时显示一个按钮,这个按钮可以用于触发一些操作或者显示更多的内容。 在本篇文章中,我将会介绍如何使用 Vue3 实现一个鼠标经过显…

七人拼团系统开发模式常见问题详解

七人拼团模式最近在市场上非常火爆,很多企业商家都在用这个模式。但同时也有很多人对这个模式不太了解,纷纷私信问我,今天就在这里简单说一下七人拼团模式的常见问题。 1、什么是七人拼团? 七人拼团就是用户购买专区礼包后&#…

Redis的数据类型

参考文档:https://www.runoob.com/redis/redis-tutorial.html redis当中一共支持五种数据类型,分别是: string字符串 list列表 set集合 hash表 zset有序集合 1、对字符串string的操作 下表列出了常用的 redis 字符串命令 1 设置值 获取…

报错:To install it, you can run : npm install --save @api/***解决方法

启动项目时,控制台报错,在此记录一下 以下是报错原因: 报错信息如下 To install it, you can run: npm install --save /api/tNursingStaffCirculation Proxy error: Could not proxy request auth/code from localhost:8013 to http://local. See ht…

【下载】【you-get】用电脑下载网页视频

分享一下,此方法是在网络上看到的,但忘了出处。 一、前提 电脑安装了python软件,版本无要求。建议上官网下载软件。记得配置好环境(将pyhton的scripts文件夹的路径加到用户变量里)。 二、方法 1、安装you-get库 &am…

本周精彩!关于 Linux 内核宕机和超融合 Kata 虚拟化容器技术介绍 | 第 77-78 期

本周「龙蜥大讲堂」预告来啦!我们邀请了系统运维 SIG Contributor 刘馨蔚分享《Linux 内核宕机介绍和简单分析思路》,浪潮数据超融合云原生工程师王永超分享《超融合产品中的 Kata Containers》主题演讲,精彩多多,快来扫码入群&am…

linux0.12-9-1-总体功能

[395页] 9-1 总体功能 对硬盘和软盘块设备上数据的读写操作是通过中断程序进行的。内核每次读写的数据量以一个逻辑块(1024字节)为单位,而块设备控制器则是以扇区(512字节)为单位。在处理过程中,使用了读写请求项等待队列来顺序缓冲一次读写多个逻辑块…

测试用例常见的几种设计方法

我们将从以下几种常见的方法入手,讲解测试用例的设计方法: 基于需求的设计方法、等价类、边界值、因果图、正交排列、场景设计法、错误猜测法。 1.测试用例的基本要素 测试用例(Test Case)是为了实施测试而向被测试的系统提供的一…

Android中AIDL的简单使用(Hello world)

AIDL:Android Interface Definition Language(Android接口定义语言) 作用:跨进程通讯。如A应用调用B应用提供的接口 代码实现过程简述: A应用创建aidl接口,并且创建一个Service来实现这个接口&#xff08…

使用阿里云服务器

一、购买阿里云服务器(如果是学生可以免费体验几个月) 二、开启安全组: (开启安全组): 现在这台服务器是专用网络的,那这边的网卡类型的话就内网。如果您是一个经典网络的服务器,那…

_fs.readFileSync is not a function

背景 项目需要通过读取本地一个 xlsx 的可配置文件,并生成 json 格式的文件。 查找资料发现 js 的 xlsx 库可以对 xlsx 文件进行读写和格式转换的操作,也看到了几篇xlsx结合elementui处理文件的博文,于是写下了如下代码,结果报错…

Servlet技术及代码实现

Servlet概念 Servlet是JavaEE规范之一,规范指的就是接口。Servlet是JavaWeb三大组件之一,三大组件分别是:Servlet程序、Filter过滤器、Listener监听器。Servlet是运行在服务器上的一个java小程序,它可以接收客户端发送过来的请求&#xff0c…

5个设计师都在用的在线网页设计编辑器!

在当今的设计领域,选择一款适合的在线网页设计编辑器对于产设研团队来说至关重要。有许多选择可供考虑,其中包括即时设计、Axure RP、Adobe Illustrator、Sketch 和 Figma 等工具。在这些选择中,即时设计是一款备受推荐的在线网页设计编辑器。…

搭建免费的文件自动同步服务器,无公网IP外网远程访问【Syncthing私人云盘】

文章目录 1. 前言2. Syncthing网站搭建2.1 Syncthing下载和安装2.2 Syncthing网页测试2.3 注册安装cpolar内网穿透 3. 本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 转发自CSDN远程穿透的文章:Syncthing文件同步 - 免费搭建开源的文件…

计算机网络 | 基于UDP的C/S模型代码实现

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和…