国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布100亿参数规模的开源可商用大语言模型CPM-Bee

news2025/1/12 23:30:18

5月27日,OpenBMB发布了一个最高有100亿参数规模的开源大语言模型CPM-BEE,OpenBMB是清华大学NLP实验室联合智源研究院成立的一个开源组织。该模型针对高质量中文数据集做了训练优化,支持中英文。根据官方的测试结果,其英文测试水平约等于LLaMA-13B,中文ZeroCLUE评测结果仅次于人类水平。

开源地址:OpenBMB/CPM-Bee: 百亿参数的中英文双语基座大模型 (github.com)

图片

此前,国产开源大语言模型最强的应该是ChatGLM-6B(https://www.datalearner.com/ai-models/pretrained-models/ChatGLM-6B ),这也是清华大学研究成果,是清华大学KEG小组发布的,在国内外都有很好的反响,截止5月26日,ChatGLM-6B 全球下载达到200万。相比较ChatGLM-6B,CPM-Bee的主要特点如下:

  1. 开源协议更加友好,只要获取书面授权即可商用。代码、预训练结果均开源,训练过程也是全球直播。
  2. 从评测结果看,CPM-Bee模型效果也很优秀,中文ZeroCLUE评测中远超其它模型,仅次于人类,英文多个任务评测结果也与LLaMA-13B差不多,部分任务上的表现超越GPT-3。
  3. 推理成本与ChatGLM-6B差不多,最低10亿参数规模的模型仅需要4.1GB显存可做推理,而100亿参数规模的推理仅需20GB显卡,单张消费级显卡即可。

总的来说,CPM-Bee是值得大家关注的模型,如果商用协议未来保持友好,且不断升级迭代,那也许会是一个可以和ChatGLM-6B模型竞争的一个国产替代好选择~

CPM-Bee简介

CPM全称Chinese Pretrained Model,Bee是该系列模型的第二个里程碑版本。

CPM-Bee模型是基于CPM-Ant模型继续训练得到。后者是2022年5月到9月训练的大语言模型。而CPM-Bee则是从2022年10月13日开启训练,相比之前,模型在很多任务上做了优化,包括文字填空、文本生成、问答等。

这是一个基于transformer架构的自回归模型,在高质量的中英文数据集上训练了半年左右的时间。包含4个系列的预训练结果,参数分别是10亿、20亿、50亿和100亿。CPM-Bee模型的相关信息如下:

图片

根据官方的描述,CPM-Bee的中文数据集原始数据有1TB左右,做了预处理清洗之后有200GB的高质量中文数据集结果。并加入了400GB的多语言数据集,但没有透露数据集的具体信息。

CPM-Bee训练时间230天,成本85万左右。训练的tokens数量约6380亿左右(本部分数据与GitHub介绍有冲突)。

此外,CPM-Bee的一个特点是在推理上占用的资源很小:

图片

可以看到,最小的10亿参数版本的模型仅需要4.1GB显存即可运行!50亿参数规模版本需要11GB显存。另一个清华大学著名的开源模型ChatGLM-6B版本的推理需要13GB显存。

CPM-Bee的效果

为了测试CPM-Bee的训练效果,官方在中英文的数据集上做了多项测试。

首先是在中文的ZeroCLUE上的测试结果。这是一个专门针对中文大语言模型的评测排行。CPM-Bee的评测得分排行第二,仅次于人类。超过了百度、阿里云等相关模型。

图片

在英文评测上,其测试结果也超过了LLaMA-7B,与LLaMA-13B的得分相当。甚至在BooQ、ARC-c和OBQA的任务上超过了GPT-3!可以说是十分不错。

图片

CPM-Bee的开源协议

CPM-Bee作为一个完全开源的中文大语言模型,不仅测试结果很好,在开源方面也十分“大方”。

官方使用了自己的一个自定义开源协议,不过限制较为宽松。代码和模型预训练结果均开源,而模型的预训练结果的商用也只是需要获取官方书面授权即可(官方未说明是否收费)。

另一个比较有意思的是CPM-Bee模型的训练过程也是一个完全开放的过程,官方在社区上公布了完整的模型训练过程,目前最新的训练停留在2023年3月27日,loss结果0.691974,成本85万,时间230天。

图片

除此之外,官方公布了训练过程中遭遇到的一系列问题,包括显存不足、磁盘空间不足等一系列问题,也是大家观察大模型训练最好的方法。

具体的模型信息和下载地址大家参考CPM-Bee模型的模型信息卡信息:

程中遭遇到的一系列问题,包括显存不足、磁盘空间不足等一系列问题,也是大家观察大模型训练最好的方法。

具体的模型信息和下载地址大家参考CPM-Bee模型的模型信息卡信息:

https://www.datalearner.com/ai-models/pretrained-models/CPM-Bee

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/651088.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python零基础入门(二)——IDE介绍以及Python+PyCharm的安装

系列文章目录 个人简介:机电专业在读研究生,CSDN内容合伙人,博主个人首页 Python入门专栏:《Python入门》欢迎阅读,一起进步!🌟🌟🌟 码字不易,如果觉得文章不…

docker容器介绍及安装

Docker介绍 Docker 起源于2013年。 Docker 是一个开源的应用容器引擎,基于 Go语言开发,Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的系统。 优点: 可以用来快速交付应用。加…

SQL 的window开窗函数简单使用

背景: 开窗函数不论是spark的还是clickhouse的在日常的查询中是一个很常用的功能,特别是他想要解决的问题和group by的很类似,这两种容易引起混淆,本文就简单的描述下开窗函数的简单用法 使用详解 首先窗口函数和group by是完全…

caj文件在线转换成pdf方法,看这个就会了!

当需要将Caj文件转换为PDF格式时,有多种方法可供选择。本文将介绍三种常用的方法,以帮助您完成这个任务。 第一种方法:使用记灵在线工具 一种常用的方法是利用记灵在线工具,它是一款提供免费文件转换服务的在线工具。以下是使用…

消息队列RabbitMQ

1. 消息队列 RabbitMQ 消息队列是一种在应用程序之间发送和接收消息的方法,可以实现异步通信、解耦应用、提高系统性能等效果。RabbitMQ 是一款常用的开源消息中间件,它实现了 AMQP 协议规范,并提供了可靠性、灵活性、易用性等优秀特性。本文…

DBSyncer安装_配置postgresql和mysql_sqlserver_oracel全量增量同步---数据全量增量同步之DBSyncer001

国内做开源的大神做的,用了一下还可以,就是不能和Phoenix这种操作hbase等数据库一起用, https://gitee.com/ghi/dbsyncer#postgresql 这个是官网,下载安装非常简单,官网也有中文详细说明. 直接下载安装包: 然后解压到某个地方,主要要用unzip dbsyncer.zip -d /opt/module这样…

干翻Mybatis源码系列之第十篇:Mybatis拦截器基本开发、使用和细节分析

给自己的每日一句 不从恶人的计谋,不站罪人的道路,不坐亵慢人的座位,惟喜爱耶和华的律法,昼夜思想,这人便为有福!他要像一棵树栽在溪水旁,按时候结果子,叶子也不枯干。凡他所做的尽…

微信小程序 method传参 和 页面传参

method传参 标签&#xff1a; <image src"/img/b1.jpg" classbannerImg mode"widthFix" bindtap"gotoMessage" data-flag"msg"></image> 使用data-参数Key 指定参数值 method: gotoMessage(e){ let flagName e.targe…

9. 子查询

9.1 概述 ​ 子查询指一个查询语句嵌套在另一个查询语句内部&#xff0c;这个特性从 MySQL 4.1 开始引入。 ​ 从相对位置来说&#xff0c;子查询又被称为内查询&#xff0c;主查询又被称为外查询 9.1.1 子查询的结构 子查询的结构如下所示&#xff1a; SELECT select_lis…

Apache Zeppelin系列教程第九篇——SQL Debug In Zeppelin

SQL Debug介绍 首先介绍下什么是SQL Debug&#xff1f; 但是经常有这样一个需求&#xff0c;一大段sql 跑出来之后&#xff0c;发现不是自己想要的结果&#xff1f;比如&#xff1a; demo 1: select id,name from ( select id,name from table1 union all select id,name fr…

数据库(第五章)数据库的完整性

1.数据库的正确性和相容性 正确性&#xff1a;符合现实逻辑 相容性&#xff1a;两个表中的同一对象要完全相同 如何实现数据库的完整性&#xff1f; 1.定义完整性约束条件 2.提供完整性检查方法 3.进行违约处理 完整性我们之前学过。包括三个 1.实体完整性 2.参照完整性 3.用户…

Fiddler中 AutoResponder 使用

Fiddler的 AutoResponder &#xff0c;即URL重定向功能非常强大。不管我们做URL重定向&#xff0c;还是做mock测试等&#xff0c;都可以通过该功能进行实践。 下面&#xff0c;小酋就来具体讲下该功能的用法。 如果你想学习Fiddler抓包工具&#xff0c;我这边给你推荐一套视频…

【C++进阶】带你手撕AVL树

文章目录 一、什么是AVL树二、AVL树的定义三、AVL树的插入1.理论讲解2.代码实现 四、AVL树的旋转1.左单旋2.右单旋3.左右双旋4.右左双旋 五、 AVL树的验证六、完整源码 一、什么是AVL树 二叉搜索树虽可以缩短查找的效率&#xff0c;但如果数据有序或接近有序二叉搜索树将退化为…

Kafka集群部署

Kafka是一个高吞吐量、基于ZooKeeper&#xff08;ZooKeeper维护Kafka的broker信息&#xff09;的分布式发布订阅信息系统&#xff0c;它可以处理消费者在网站中的所有动作&#xff08;网页浏览&#xff0c;搜索和其他用户的行动&#xff09;流数据。通常情况下&#xff0c;使用…

Linux(CentOS 7)下安装配置Maven3.9.2

Linux&#xff08;CentOS 7&#xff09;下安装配置Maven3.9.2 环境 JDK 1.8OS:Centos 7.5 tar包安装 下载 apache-maven-3.9.2-bin.tar.gz https://maven.apache.org/download.cgi 安装步骤 公共服务&#xff0c;将maven安装在root用户下。 创建maven安装地址解压安装…

UE4/5样条线学习(三):样条线与时间轴

目录 简单的小模板 物品跟随样条线移动 粒子特效类&#xff1a; 简单的小模板 通过之前的案例&#xff0c;我们可以直接创建一个actor蓝图&#xff0c;加上要用的样条组件&#xff1a; 然后我们就可以通过时间轴做出不同的一些效果 在蓝图中找到时间轴的这个节点 双击时间…

Web安全测试中常见逻辑漏洞解析(实战篇)

前言&#xff1a; 越权漏洞是比较常见的漏洞类型&#xff0c;越权漏洞可以理解为&#xff0c;一个正常的用户A通常只能够对自己的一些信息进行增删改查&#xff0c;但是由于程序员的一时疏忽&#xff0c;对信息进行增删改查的时候没有进行一个判断&#xff0c;判断所需要操作的…

网络安全学习路线+自学笔记(超详细)

01 什么是网络安全 网络安全可以基于攻击和防御视角来分类&#xff0c;我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术&#xff0c;而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域&#xff0c;都有攻与防两面…

2023我的前端面试准备

大厂面试题分享 面试题库 前后端面试题库 &#xff08;面试必备&#xff09; 推荐&#xff1a;★★★★★ 地址&#xff1a;前端面试题库 web前端面试题库 VS java后端面试题库大全 前言 回顾过往&#xff0c;至今已有三个年头了&#xff0c;《2023年我的前端面试准备》在小…

我的创作纪念日——创作历程,机缘,与成就

作者简介&#xff1a;一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a;网络豆的主页​​​​​ 目录 写在前面 一.机缘 二.收获 三.日常 四.成就 五.憧憬与规划 六.分享 写在前面 大…