截至目前最强的70亿参数大语言模型:开源可商用的RedPajam 7B完全版发布!

news2024/11/25 22:37:19

RedPajama模型是TOGETHER发布的一个开源可商用的大模型。2023年6月6日,TOGETHER在官方宣布该模型完成训练,经过测试,该模型目前超过所有7B规模的大模型,比LLaMA-7B和Falcon-7B的效果还要好!

TOGETHER公司是一家由豪华管理团队组成的创业公司,由苹果公司前高管、斯坦福大学教授等一起创办。其目标是提供大型生成式模型的基础设施。

RedPajama是一个开源大模型项目,有TOGETHER联合多家公司发起。目前包括一个开源的数据集,有1.2万亿tokens,严格按照LLaMA模型论文中的方法收集。另外,还包括2个开源大模型,一个是RedPajama 3B,于5月5日宣布训练结束,可以在RTX 2070上使用。另一个模型就是本文提到的RedPajama 7B,在昨天宣布完成训练,效果超越目前所有同等规模的模型。

  RedPajama 3B模型信息卡:

https://www.datalearner.com/ai-models/pretrained-models/RedPajama-INCITE-3B

一、RedPajama数据集简介

4月17日,TOGETHER发布了RedPajama项目,被大众所熟知。该项目希望建立一个开源的大语言模型,其第一步是重现LLaMA论文中提到的高质量预训练数据集。他们认为,高质量的大规模预训练数据集是大模型训练必要条件。而MetaAI开源的LLaMA模型可以理解为开源最强大模型。但是,他们仅仅开源了预训练结果,且不允许商用。而RedPajama则根据MetaAI的论文自己收集了这样的一个数据集。

因此,他们开源了1.2万亿tokens的RedPajama数据集。这是一个5TB大小的数据集,按照LLaMA论文描述的内容收集。目前已经被下载了几千次,而且用于超过100个模型的训练。

二、RedPajama 7B模型简介

4月23日,也就是RedPajama数据集发布1周后,TOGETHER宣布他们基于这个1.2万亿tokens的数据集正在训练一个叫RedPajama-7B模型,完成了40%的训练,但是效果已经超越Pythia-7B。这证明了大规模高质量预训练数据集的价值。

5月5日,RedPajama-7B模型的训练过程进行到80%,但是效果出乎意料,因此TOGETHER发布了0.1版本的RedPajama 7B,包含3个版本:基础大模型、基于chat微调的以及基于指令微调的。

RedPajama-7B v0.1版本预训练下载链接
RedPajama-INCITE-Base-7B-v0.1https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-7B-v0.1
RedPajama-INCITE-Chat-7B-v0.1https://huggingface.co/togethercomputer/RedPajama-INCITE-Chat-7B-v0.1
RedPajama-INCITE-Instruct-7B-v0.1https://huggingface.co/togethercomputer/RedPajama-INCITE-Instruct-7B-v0.1

这里的Base模型是基础大语言模型,采用Pythia模型一样的架构,但是基于RedPajama数据集训练,而Chat则是基于Base模型训练进行指令微调的结果(基于Dolly2和OASST微调),Chat版本模型已经可以在OpenChatKit使用。Instruct则是基于Base模型针对few-shot prompts微调的结果。在很多NLP任务中微调(来自P3和Natural Instruction)。

今天,TOGETHER宣布RedPajama 7B完成所有训练。完整版本的3个RedPajama模型全部开源:

RedPajama-7B v1.0版本预训练下载链接
RedPajama-INCITE-7B-Basehttps://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Base
RedPajama-INCITE-Chat-7Bhttps://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Chat
RedPajama-INCITE-Instruct-7Bhttps://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Instruct

上述模型均使用Apache2.0开源协议,完全开源可商用!

三、RedPajama 7B模型的效果

TOGETHER在HELM任务上做了评估。使用的是RedPajama-INCITE-Instruct-7B,从结果看,HELM平均得分上,RedPajama 7B Instruct0.492,超过LLaMA 7B的0.472和前段时间最强开源模型Falcon 7B的0.407。

RedPajama第二代模型即将登场

除了上述RedPajama 7B模型的开源外,官方还宣布了RedPajama V2版本的消息。RedPajama 2将在2-3万亿tokens数据集上训练。主要有以下规划:

  1. 准备基于DoReMi这样的技术自动学习不同数据的混合。

  2. 引入Pile v1(来自Eleuther.ai)和Pile v2(CrperAI)等数据集,提高训练数据多样性

  3. 处理更多的CommonCrawl数据集

  4. 使用更好的数据去重复策略

  5. 引入至少1500亿tokens的代码数据集。

而根据官方的描述RedPajama 2将继续开源!

RedPajama背后的INCITE超级计算机资助

RedPajama项目背后离不开美国国家科学基金会的一个INCITE项目,它通过资助申请者的DOE超级计算机使用时间来降低大家对超大规模计算资源的使用门槛。RedPajama总共使用了3072个V100的GPU进行训练。

可以看到,超级计算机的项目资助对于促进这样的大模型训练来说很重要。目前不知道国内是否有这样的资源可以供大家申请使用。如果有,这也许也会推动国内大模型的发展!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/662900.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HDMI之HDCP

概述 HDCP 1.4第1阶段 HDCP 1.4第2阶段 只有REPEATER设备,此阶段才会出现。 HDCP 1.4第3阶段 本文以Repeater为例,连接方式Source[Tx]=>[Rx]Repeater[Tx]=>[Rx]Sink。讲解一下HDCP1.4的通信过程。 设置SCDC 设置TMDS Configuration Rx W A8 20 00 Rx W A8 20 R …

云安全与云渗透

一、引言 随着技术的进步,云计算已成为信息技术领域的主流趋势。企业和个人都在利用云服务实现数据存储和处理的便利,但同时也带来了一系列的安全问题。对于这些问题,我们需要深入理解云安全和云渗透的重要性。本文将详细探讨这两个主题。 …

Leetcode之哈希查找

1. 哈希查找 本质上就是个搜索,但是可以将在一个集合中查找一个元素的时间复杂度降低到O(1)。python中常用的有以下方式: setdict数组模拟 2. 相关算法题 2.1. Leetcode 771 宝石与石头 题目链接题目描述 给你一个字符串 jewels 代表石头中宝石的类…

Java 图片渲染到前端,向前端一次返回多张Base64图片

文章目录 前言图片渲染到前端向前端一次返回多张Base64图片 前言 当我们从服务器读取的图片链接返回给前端,前端可以很轻松的下载和展示,但是对于临时文件,我们不需要保存到服务器,比如PPT转图片,PDF转图片等等&#…

数据结构--》从线性表说起,掌握常用基础算法

目录 初识线性表 线性表的基本操作 顺序表的定义 顺序表的基本操作 单链表的定义 单链表的基本操作 双链表的介绍 循环链表的介绍 静态链表的介绍 初识线性表 线性表是具有相同数据类型的 n (n0) 个数据元素的有限序列,其中n为表长,当n0时线性…

mysql 将date字段默认值设置为CURRENT_DATE

我们是否可以在mysql中,将Date字段的默认值设置为CURRENT_DATE(当前日期)? 答案是8.0之前不可以,8.0.13之后可以。 比如在5.7版本中使用如下sql创建表,将会提示语法错误: CREATE TABLE t_order (id bigi…

CentOS 7远程登录jupyter lab

使用cat /etc/redhat-release看到操作系统是CentOS Linux 7.6,使用uname -r看到内核是3.10.0-957.el7.x86_64。 python3 --version看一下python的版本,pip3 --version看一下pip的版本,这是我CentOS 7默认安装好的。 pip3 install jupyterla…

ASEMI代理光宝高速光耦LTV-M601参数,LTV-M601图片

编辑-Z LTV-M601参数描述: 型号:LTV-M601 平均正向输入电流IF:20mA 反向输入电压VR:5V 功耗PI:40mW 输出集电极电流IO:50mA 输出集电极电压VO:7V 输出集电极功耗Po:85mW 电…

【C++从入门到放弃】stack和queue的深度剖析及空间适配器的介绍

🧑‍💻作者: 情话0.0 📝专栏:《C从入门到放弃》 👦个人简介:一名双非编程菜鸟,在这里分享自己的编程学习笔记,欢迎大家的指正与点赞,谢谢! stack…

SMT车间贴片机Feeder管理方案

Feeder(飞达或供料器)是电子厂SMT车间贴片机上一个重要的部件,它的可用状态关系着贴片机生产的质量的稳定性,如何有效率的管理是每一位车间主管人员不可忽视的问题。根据行业协会大数据的分析发现导致贴片机大约30%的损失时间及1%的物料浪费都是因为Feed…

【Leetcode60天带刷】day14二叉树——144.二叉树的前序遍历,145.二叉树的后序遍历,94.二叉树的中序遍历

题目: 144. 二叉树的前序遍历 给你二叉树的根节点 root ,返回它节点值的 前序 遍历。 示例 1: 输入:root [1,null,2,3] 输出:[1,2,3]示例 2: 输入:root [] 输出:[]示例 3&#x…

5.4.1 虚拟专用网VPN

5.4.1 虚拟专用网VPN 我们已经学习了因特网的路由协议(5.3.1 因特网的路由协议(一)、5.3.2 因特网的路由协议(二)基于距离向量算法的RIP协议、5.3.3 因特网的路由协议(三)OSPF协议、5.3.4 因特…

【Docker】Docker的优势、与虚拟机技术的区别、三个重要概念和架构及工作原理的详细讲解

前言 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux或Windows操作系统的机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。 📕作者简介:热…

开利网络赋能祥兴事业集团推动乡村振兴数字化转型

近日,开利网络到访柳州祥兴实业集团,就即将举办的广西文旅大会数字化部署进行跟踪落地。以“祥兴百朋荷苑”为用户端,祥兴集团针对百朋景区实施了全流程的数字化系统构建,包含景区统一收银、景区导览导航讲解及扫码点餐、预约核销…

Winform模拟Visual Studio工具栏拖拉拽、停靠

背景 随着公司接的业务复杂度提高,软件界面设计需求也相应提升,老板不再满足于单面板的各种跳转,所以明白了吧,不提升自己就等于自愿失业或转行!!! 方案 本来想着自学自写一套控件库来实现&a…

抽象类和接口—javaSE

这里写目录标题 1.抽象类1.1概念1.2语法1.3特性1.4使用 2.接口2.1概念2.2语法2.3特性2.4重要的接口2.4.1给数组对象排序(Comparable、Comparator)2.4.2 Cloneable(浅拷贝) 2.5抽象类和接口的区别 3.object类3.1定义3.2equals3.3获…

智慧文旅-VR全景展示助力开启景区数字化管理新方式

导语: 在数字化时代,旅游业面临着新的机遇和挑战。 为了吸引更多游客并提供独特的旅行体验,结合VR全景技术和智慧文旅的创新模式已经成为不可忽视的趋势。 一.提升旅游感官体验 VR全景技术正以惊人的速度在旅游业中崭露头角。通过…

【自监督论文阅读 2】MAE

文章目录 一、摘要二、引言2.1 引言部分2.2 本文架构 三、相关工作3.1 Masked language modeling3.2 Autoencoding3.3 Masked image encoding3.4 Self-supervised learning 四、方法4.1 Masking4.2 MAE encoder4.3 MAE decoder4.4 Reconstruction target 五、主要实验5.1 不同m…

【云原生】· 一文了解docker中的网络

目录 🍒查看docker网络 🍒bridge网络 🍒none网络 🍒host网络 🍒自定义容器网络 🦐博客主页:大虾好吃吗的博客 🦐专栏地址:云原生专栏 根据前面的学习,已经对d…

netty http3功能从零开始

1、windows安装jdk和mvn、gradle、gloovy 配置环境变量JAVA_HOME CLASSPATH MVN_HOME GRADLE_HOME GLOOVY_HOME mvn和gradle都是用来管理和编译java项目的,mvn比较老,现在一般用gradle 2、vscode环境 vscode安装extension:Extension Pack fo…