Baichuan2开源大模型正式发布,王小川:性能超过LLaMA2

news2024/10/12 10:20:46

219c2f4c43ba37fadea5c8d61bc3e6a3.png

c4430230eac897cbeb61af16d9cb6156.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


ChatGPT火爆出圈之后,社交巨头Meta奋力追赶,分别在3月、7月发布开源的LLaMA、LLaMA2大模型,引领一场大模型开源运动。

LLaMA2大模型,包含了70亿、130亿、700亿参数三个版本,性能直追GPT3.5,发布之后引起轰动。业界普遍认为,在科技巨头之间的大模型之战中,LLaMA2成功为Meta赢得了一张入场券。

LLaMA2与OpenAI的GPT-4、谷歌的PaLM鼎足而三,基本锁定海外大模型市场的格局,也引发一场开源pk闭源的争论。一个普遍的共识是,在大模型的战场,开源、闭源将长期共存,类似手机市场开放模式的安卓与封闭模式的IOS。

国内大模型的发展,闭源路线有百度的文心一言、科大讯飞的星火大模型,开源路线则有阿里的通义千问。在创业公司当中,王小川创立的百川智能既有开源的Baichuan-7B/13B,又有闭源的Baichuan-53B,在开源、闭源之间构建自己的商业版图。

百川速度,平均28天推出一款大模型

9月6日,百川智能举办主题为“百川汇海,开源共赢”的发布会,宣布开源升级微调之后的Baichuan2大模型。开源之后,Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-chat与其4bit量化版本均为免费可商用。

在此之前的8月31日,作为首批通过《生成式人工智能服务管理暂行办法》备案的八家公司/机构之一,百川智能的大模型产品正式上线,面向社会开放服务。

百川智能由搜狗创始人王小川在4月创立,5月完成天使轮5000万美元融资,获得来自十余家机构的联合投资。6月,百川智能推出第一款70亿参数的通用大模型Baichuan-7B。7月,百川智能又推出130亿参数的通用大模型Baichuan-13B-Base、对话模型Baichuan-13B-chat的两个量化版本。8月,530亿参数的通用大模型Baichuan-53B正式问世。

三个月时间内,百川智能平均28天发布一款大模型,一口气推出三款大模型,跑出了令人惊叹的百川速度。

根据王小川的规划,百川智能将在四季度发布对标ChatGPT3.5的大模型,在2024年一季度发布大模型的超级应用。

理科大提升,Baichuan2挑战LLaMA2

Baichuan2开源大模型是百川智能连续发布三款大模型之后的又一次重大技术迭代。

据王小川介绍,Baichuan2-7B-Base、Baichuan2-13B-Base两款开源大模型基于2.6万亿高质量多语言数据训练而成,是文理兼备的大模型,数学能力、代码能力、安全能力、逻辑、语义理解都得到明显的提升。

相关跑分显示,与上一代Baichuan-13B-Base相比,Baichuan2-13B-Base数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。

据介绍,70亿参数的Baichuan2-7B开源大模型在中文水平上超越了LLaMA2 130亿参数开源大模型,在英文水平上与其持平。Baichuan2-7B实现“以小博大”,小模型相当于大模型,在同尺寸大模型比较时,Baichuan2系列大模型的性能有望全面超越LLaMA2的性能。

开放训练过程,下载量超过500万次

王小川说,LLaMA2的开源协议对中文用户不够友好,Baichuan2发布之后可实现对LLaMA2的平替。对中文使用者而言,“LLaMA2作为一个开源模型的时代已经过去了”。

百川智能采取开源、闭源并重的策略,在推进大模型研发的同时,又积极培育开发者生态。据王小川介绍,Baichuan-7B、Baicuan-13B两款大模型开源之后,在多个权威榜单名列前茅,下载量超过500万次。

Baichuan2大模型开源之际,百川智能又发布相关技术报告,首次开放大模型的训练过程,助力学术界的深入研究。

众所周知,大模型训练包括海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节,每个环节都需要大量人才、算力资源的投入。百川智能开放模型训练从220B到2460B全过程的check point,对科研机构研究大模型训练过程、模型继续训练和模型价值观对齐等极具价值,可极大推动大模型的科研进展。

文:Bugle-X / 数据猿

1267e17ebcea13359dc95d33f01c72cb.jpeg

a101aeafc8b97ec7b19425aea5489b9c.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/992963.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

对Transformer中的Attention(注意力机制)的一点点探索

摘要:本文试图对 Transformer 中的 Attention 机制进行一点点探索。并就 6 个问题深入展开。 ✅ NLP 研 1 选手的学习笔记 简介:小王,NPU,2023级,计算机技术 研究方向:文本生成、摘要生成 文章目录 一、为啥…

强大的JTAG边界扫描(3):常用边界扫描测试软件

文章目录 1. 功能强大的XJTAG2. 小巧简洁的TopJTAG3. TopJTAG安装4. TopJTAG基本使用 本文介绍两款常用的边界扫描测试软件:XJTAG和TopJTAG,前者收费、功能强大,后者免费(和谐后),功能简洁。 如果只是要进…

深入探讨梯度下降:优化机器学习的关键步骤(三)

文章目录 🍀引言🍀随机、批量梯度下降的差异🍀随机梯度下降的实现🍀随机梯度下降的调试 🍀引言 随机梯度下降是一种优化方法,主要作用是提高迭代速度,避免陷入庞大计算量的泥沼。在每次更新时&a…

【图神经网络 01】

图的基本构成: V:Vertex (or node) attributes E:Edge (or link) attributes and directions U:Global (or master node) attributes 图的邻接矩阵:文本数据也可以表示图的形式,邻接矩阵表示的连接关系。 以…

计算机竞赛 基于深度学的图像修复 图像补全

1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于深度学的图像修复 图像补全 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://gitee.com/dancheng-se…

牛客网项目-第一章-笔记

牛客网项目-第一章 环境配置 java maven idea Spring Intializr 搜索jar包的网站&#xff1a;https://mvnrepository.com/ https://start.spring.io/ 缺少的aop包&#xff0c;手动在pom.xml中加入依赖 <dependency><groupId>org.springframework.boot</gro…

OpenRoads Designer导入文本格式水平路线、路线纵断面

ORD可以用以文本文件进行定义水平几何路线及纵断面几何路线直接导入来完成几何路线的定义&#xff1a; 水平路线 平面几何路线示例 “平面几何路线.txt”文件内容&#xff1a; BP-1,54376.169,1816.914 BP,54376.101,1817.912 JD01,54358.369,2081.452,0 JD02,54810.789,477…

linux 基础命令 cd /xxx 和 cd xxx 的区别

cd 命令&#xff1a;用于改变当前工作目录的命令&#xff0c;作用&#xff1a;切换当前目录至其它目录 用 cd 命令去 home目录&#xff1a; cd home/ 用cd 命令 去tony 目录下 cd ../ 返回上级目录 cd ../ tony / 返回上级目录进入和hom 同级的tony 目录 这里要讲 linux …

树(一)树和二叉树的基本概念

文章目录 一、树1、什么是树2、树的相关概念3、树的表示 二、二叉树1、二叉树的概念2、二叉树的几种情况3、特殊二叉树4、二叉树的性质5、二叉树的存储结构 一、树 1、什么是树 树是一种非线性的数据结构&#xff0c;它是由n&#xff08;n>0&#xff09;个有限结点组成一个…

C++学习——vector类的使用

目录 vector类的介绍&#xff1a; vector类的构造函数: operator operator [ ] begin & end size & resize capacity & reserve push_back & pop_back insert & erase vector类的介绍&#xff1a; vector是C标准模板库中的部分内容&#xff0c;中文偶尔…

【Python】OpenCV立体相机配准与三角化代码实现

下面的介绍了使用python和OpenCV对两个相机进行标定、配准,同时实现人体关键点三角化的过程 import cv2 as cv import glob import numpy as np import matplotlib.pyplot as pltdef calibrate_camera(images_folder):images_names = glob.glob(images_folder

css画一条渐变的虚线

效果展示 原理&#xff1a;给元素设置一个渐变的背景色&#xff0c;画一条白色的虚线盖住背景&#xff0c;就达到了渐变虚线的效果 代码&#xff1a; <div class"pending-line"></div>.pending-line{width: 101px;border-top: 2px dashed #fff; // do…

C++算法 —— 动态规划(3)多状态

文章目录 1、动规思路简介2、按摩师3、打家劫舍Ⅱ4、删除并获得点数5、粉刷房子6、买卖股票的最佳时机含冷冻期7、买卖股票的最佳时机含手续费8、买卖股票的最佳时机Ⅲ9、买卖股票的最佳时间Ⅳ 每一种算法都最好看完第一篇再去找要看的博客&#xff0c;因为这样会帮你梳理好思路…

正式支持 NVIDIA A100,吞吐量提高 10 倍的Milvus Cloud2.3 使用指南

Milvus 2.3 正式支持 NVIDIA A100! 作为为数不多的支持 GPU 的向量数据库产品,Milvus 2.3 在吞吐量和低延迟方面都带来了显著的变化,尤其是与此前的 CPU 版本相比,不仅吞吐量提高了 10 倍,还能将延迟控制在极低的水准。 不过,正如我前面提到的,鲜有向量数据库支持 GPU,…

必须收藏 | 如何完全卸载ArcGIS

好多小伙伴在卸载ArcGIS过程都遇到了卸载不彻底无法重新安装新版本&#xff0c;卸载残留的注册表找不到等一系列问题&#xff0c;今天小编为大家整理了几个如何完全卸载ArcGIS的方法&#xff0c;希望能够帮到大家&#xff01; #1快捷版 1、开始>控制面板>添加删除程序&…

MR源码解析和join案例

MR源码解析 new Job(): 读取本地文件, xml配置job.start(): 启动线程job的run():线程方法 runTasks(): 传入对应的接口&#xff0c;启动map或者reduceMapTask类的run(): 设置map阶段的参数&#xff0c;初始化任务&#xff0c;创建上下文对象 创建读取器LineRecordReader判断是…

【计算机网络】HTTPS

文章目录 1. HTTPS的概念2. 加密常见的加密方式对称加密非对称加密 3. HTTPS的工作过程的探究方案1 —— 只使用对称加密方案2 —— 只使用 非对称加密方案3 —— 双方都是用非对称加密方案4 —— 非对称加密对称加密中间人攻击引入证书CA认证理解数据签名 方案5 —— 非对称加…

【Redis】1、NoSQL之Redis的配置及优化

关系数据库与非关系数据库 关系型数据库 关系型数据库是一个结构化的数据库&#xff0c;创建在关系模型&#xff08;二维表格模型&#xff09;基础上&#xff0c;一般面向于记录。 SQL 语句&#xff08;标准数据查询语言&#xff09;就是一种基于关系型数据库的语言&a…

WebGL 绘制矩形

上一节绘制了圆点&#xff0c;调用的绘制方法如下&#xff1a;gl.drawArrays(gl.POINTS, 0, 1); 第一个参数明显是个枚举类型&#xff0c;肯定还有其他值&#xff0c;如下所示&#xff1a; POINTS 可视的点LINES 单独线段LINE_STRIP 线条LINE_LOOP 闭合线条TRIANGLES 单独三…

【Redis7】--1.概述、安装和配置

文章目录 1.Redis概述1.1Redis是什么1.2Redis与MySQL的关系1.3Redis功能1.4Redis优势 2.Redis的安装和配置 1.Redis概述 1.1Redis是什么 Redis全称 远程字典服务器&#xff08;Remote Dictionary Server&#xff09;&#xff0c;它是完全开源的&#xff0c;使用ANSIC语言编写…