你好,我是百川大模型|国内可开源免费商用Baichuan2揭秘

news2024/12/23 10:20:10

 百川智能发布了新一代语言模型Baichuan2。相比之前的第一代,新版本在各个学科领域的表现都有很大提升,特别是在数学、科学、安全方面的能力得到明显增强。Baichuan2以开源方式对外发布,为大模型领域提供了新的选择和可能。

288649988f227bf02e0f837635d38b83.png

01

昨天下午,百川智能发布了一个令人振奋的消息:正式开源了经过微调的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat以及它们的4bit量化版本,并且可以完全免费商用,只需进行简单登记即可。

国内开源可商用的大模型又多了一个选择。开源地址:

https://github.com/baichuan-inc/Baichuan2

Baichuan2是对“Baichuan”系列开源模型的一次全面升级。据官方介绍,相对于第一代,Baichuan2在文科和理科方面的能力都得到了显著的提升。

Baichuan2-13B-Base在数学能力上提升了49%,代码能力提高了46%,安全能力增强了37%,逻辑推理方面进步了25%,同时在语义理解方面也提高了15%。

目前Baichuan2在大模型的权威基准数据测试集的结果如下(Baichuan2-13B)‍‍‍‍‍‍‍‍‍‍‍‍‍‍

4058c90415ded56e5981aee2c672a303.png

基础评测数据集说明:‍

  • C-Eval 是一个全面的中文基础模型评测数据集,涵盖了 52 个学科和四个难度的级别。

  • MMLU 是包含 57 个任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,是目前主流的 LLM 评测数据集。

  • CMMLU 是一个包含 67 个主题的综合性性中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。

  • Gaokao 是一个以中国高考题作为评测大语言模型能力的数据集,用以评估模型的语言能力和逻辑推理能力。百川保留了其中的单项选择题,并进行了随机划分。

  • AGIEval 旨在评估模型的认知和解决问题相关的任务中的一般能力。 我们只保留了其中的四选一单项选择题,并进行了随机划分。

  • BBH 是一个挑战性任务 Big-Bench 的子集。Big-Bench 目前包括 204 项任务。任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面。BBH 是从 204 项 Big-Bench 评测基准任务中大模型表现不好的任务单独拿出来形成的评测基准。

测试集的表现还可以,不知道非测试集的实际应用过程的表现如何。‍‍‍‍‍‍

用这篇文章《ChatALL:发现最佳答案的神奇AI机器人!》里测试过大模型的的一道题体验一下。‍‍‍

“一个猎人向南走了一英里,向东走了一英里,向北走了一英里,此时恰好回到起点。他看到一只熊,于是开枪打了它。这只熊是什么颜色的?”‍

505f9f6658b9459f39d125ed35d1ee4f.png

指出错误后,还是认为正方形。‍‍‍‍‍‍‍‍‍‍‍

a056075750255a65af8ff049a124e425.png

“树上10只鸟,开枪打死一只,树上还剩几只?”

630099264d4796e3002180ff85fe170d.png

这个推理回答完全正确,还考虑的声音吓飞的因素。

02

对齐‍‍‍

官方的技术报告手册(https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf)提到,除了训练上的优化和改进,baichuan2 还引入了对齐过程,包括两个主要组成部分:监督微调(SFT)和人类反馈强化学习(RLH F)。

在监督微调阶段,使用人工标注器来注释从各种数据源收集的提示。每个提示都被标记为有帮助或无害,拒绝任何不符合质量标准的批次。以此为标准收集了超过 100k 的监督微调样本,并在其上训练了百川的基本模型。

2c139111243285c8c1742e7fb9001896.png

在这篇文章《人工智能安全吗?OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图》提到,“对齐”是现在大模型训练中重要的一环,它可以让大模型更智能,同时又确保有足够的安全性。

在对齐的阶段,百川构建了由 6 种攻击类型和 100+颗粒安全价值类别组成的红队流程,由 10 人组成的具有传统互联网安全经验的专家标注团队初始化安全对齐提示。从预训练数据集中检索相关片段来创建响应,产生大约 1K 的注释数据用于初始化。‍

专家标注团队指导一个 50 人的外包标注团队与初始化的对齐模型进行红蓝对抗,产生 200K的攻击提示。

通过采用专门的多值监督抽样方法,最大限度地利用了攻击数据,以生成不同安全级别的响应。

有兴趣的朋友可以看百川的官方技术报告手册,里面有比较多的技术实现细节。‍‍‍‍‍

03

在实际目前比较热的几个应用领域:法律、医疗、数学、代码、多语言翻译,百川也介绍了如何做的基准测试。‍‍‍‍‍‍‍‍‍

法律领域:使用了 JEC-QA 数据集。JEC-QA 数据集来源于中国国家司法考试。

医疗领域:使用通用领域数据集(C-Eval、MMLU、CMMLU)中的医学相关学科、MedQA 和 MedMCQA。

MedQA 数据集来源于美国、中国的医学考试。测试了 MedQA数据集 中的 USMLE 和 MCMLE 两个子集,并采用了五个候选的版本。

MedMCQA 数据集来源于印度医学院的入学考试。只测试了其中的单选题。

数学领域:使用 OpenCompass 评估框架,对 GSM8K 和 MATH 数据集进行了 4-shot 测试。

GSM8K 是由 OpenAI 发布的一个由 8.5K 高质量的语言多样化的小学数学应用题组成的数据集,要求根据给定的场景和两个可能的解决方案,选择最合理的方案。

MATH 数据集包含 12,500 个数学问题(其中 7500 个属于训练集,5000 个属于测试集),这些问题收集自 AMC 10、AMC 12、AIME 等数学竞赛。

代码领域:采用了 HumanEval 和 MBPP 数据集。使用 OpenCompass,对 HumanEval 进行了 0-shot 测试,MBPP 数据集进行了 3-shot 测试。

HumanEval 中的编程任务包括模型语言理解、推理、算法和简单数学,以评估模型功能正确性,并衡量模型的问题解决能力。

MBPP 包括 974 个 Python 短函数、程序的文字描述以及用于检查功能正确性的测试用例的数据集。

多语言翻译:采用了 Flores-101 数据集来评估模型的多语言能力。Flores-101 涵盖了世界各地的 101 种语言。它的数据来源于新闻、旅游指南和书籍等多个不同领域。

选择了联合国官方语言(阿拉伯文、中文、英文、法文、俄文和西班牙文)以及德文和日文作为测试语种。使用 OpenCompass 对 Flores-101 中的中-英、中-法、中-西班牙、中-阿拉伯、中-俄、中-日、中-德等七个子任务分别进行了 8-shot 测试。

可以看出,百川大模型的国内应用场景针对性还是比较强。‍‍‍‍‍‍‍

现在后续的各家大模型厂家纷纷选择开源可商用,前有清华团队的ChatGLM,国外有Meta的Llama,后有baichuan。‍

这么做的好处:‍

  • 扩大在大模型赛道的影响力。后发的大模型并没有影响力的优势,开源商用后,可以让产品广为人知。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

  • 建立品牌信任度。大模型是一个新生事务,用户对其功能、安全性、可用程度等没有过多的认知。开源可以让用户了解其创建、训练、微调、对齐、评测所做的一系列工作内容,从而达到对其有个全面了解的目的。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

  • 快速收集客户反馈,加速模型进化迭代。开源后可以有更多的用户加入进来参与对模型的使用,获得更多、更全面的用户使用反馈。并用于后续的版本进化迭代,使其应用更有针对性、普适性。

参考资料‍

https://www.baichuan-ai.com/

https://github.com/baichuan-inc/Baichuan2

https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf

阅读推荐‍

什么是AI的“智能涌现”,以及为什么理解它对创业者、从业者、普通人都价值巨大

提示攻击再次攻击大模型,被催眠后的ChatGPT可能会泄露重要信息-大模型的隐藏风险

全球最大开源翻译模型!Meta出品,支持100种语音、语言!

8.23 中国大模型「顶流群聊」笔记

人工智能安全吗?OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图

如何做大模型的微调实验,记录一次基于ChatGLM-6B 大模型微调实验过程。

REACT:在语言模型中协同推理与行动,使其能够解决各种语言推理和决策任务。

5分钟玩转PDF聊天机器人!超简单的Langchain+ChatGPT实现攻略

为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)

拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/987919.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

短信过滤 APP 开发

本文字数:7033字 预计阅读时间:42分钟 一直想开发一个自己的短信过滤 APP,但是一直没有具体实施,现在终于静下心来,边开发边记录下整体的开发过程。 01 垃圾短信样本 遇到的第一个问题是,既然要过滤垃圾短信…

JAR will be empty - no content was marked for inclusion!

现象 在对自建pom依赖组件打包时&#xff0c;出现JAR will be empty - no content was marked for inclusion!错误。 方案 在pom中怎么加packaging标签内容为pom&#xff0c;标识只打包pom文件 <?xml version"1.0" encoding"UTF-8"?> ...<grou…

MyBatis的逆向工程

文章目录 前言MyBatis的逆向工程创建逆向工程的步骤添加依赖和插件创建MyBatis的核心配置文件创建逆向工程的配置文件执行MBG插件的generate目标 QBC查询增改 总结 前言 MyBatis的逆向工程 正向工程&#xff1a;先创建Java实体类&#xff0c;由框架负责根据实体类生成数据库表…

《计算机网络安全》DNS与它的具体作用解析

初步了解DNS 个人介绍DNS定义DNS作用DNS的生活加速作用科普 个人介绍 &#x1f338;一名大四备考考研学子&#xff0c;喜欢前端&#xff0c;还有Android和JAVA开发 &#x1f332;爱看书和打游戏还有唱歌 &#x1f352;热爱编程和读古今中外名著 &#x1f33a;座右铭&#xff1…

JMeter 4.0 如何获取cookie

文章目录 前言JMeter 4.0 如何获取cookie1. 修改jmeter.properties 文件2. 添加HTTP Cookie 管理器3. 获取cookie信息 前言 如果您觉得有用的话&#xff0c;记得给博主点个赞&#xff0c;评论&#xff0c;收藏一键三连啊&#xff0c;写作不易啊^ _ ^。   而且听说点赞的人每天…

TikTok运营做不起来?IP如何选择?

作为跨境电商新蓝海&#xff0c;TikTok不断的加快自己推进电商业务的步伐&#xff0c;也吸引了越来越多的跨境商家入驻。但是很多人信心满满注册入驻后&#xff0c;却遇到了0播放&#xff0c;流量少&#xff0c;转化低的问题&#xff0c;Tiktok运营不起来&#xff0c;那你要注意…

大数据技术之Hadoop:MapReduce与Yarn概述(六)

目录 一、分布式计算 二、分布式资源调度 2.1 什么是分布式资源调度 2.2 yarn的架构 2.2.1 核心架构 2.2.2 辅助架构 前面我们提到了Hadoop的三大核心功能&#xff1a;分布式存储、分布式计算和资源调度&#xff0c;分别由Hadoop的三大核心组件可以担任。 即HDFS是分布式…

WebStorm2023新版设置多个窗口,支持同时显示多个项目工程

调整设置 Appearance & Behavior -> System Settings> Project open project in New window&#xff1a;

记录mac虚拟机安装centos7

一. 安装VMWare Fusion&#xff08;略&#xff09; 二. 寻找arm64架构mac能拉起来的centos7镜像&#xff08;略&#xff09; 参考 https://cloud.tencent.com/developer/article/2150583?areaSource106000.2&traceIdkybnG2SKASN5GqSBiSmu9 三. 从origin镜像安装后开始记…

想要获得更多的好评吗?电子商务人不可错过的文章

电子商务评论可以飙升销售额并改善您与客户的关系。积极的客户反馈是任何电子商务成功故事的关键。高客户满意度保证了回头客和新买家&#xff0c;这将使您的公司保持活力。推荐使用SaleSmartly&#xff08;SS客服&#xff09;这一客户服务平台&#xff0c;给您的客户带来更好的…

Geoserver发布shp、tiff、瓦片等格式的GIS数据

这里写目录标题 1 发布shp矢量数据1.1 添加shp作为数据源1.2 发布shp图层1.3 预览服务1.4 配置样式 2 发布Postgres数据库2.2 发布数据 3 发布 tif 栅格数据3.1 添加 tif 数据源3.2 发布tif数据3.3 预览服务3.4 配置地图样式 关于中文标注乱码的问题 1 发布shp矢量数据 发布sh…

归并排序和快速排序的两种实现

在此之前我们已经介绍过归并排序和快速排序&#xff1a;浅谈归并排序与快速排序&#xff0c;但其中的实现都是基于递归的。本文将重新温故这两种算法并给出基于迭代的实现。 目录 1. 归并排序1.1 基于递归1.2 基于迭代 2. 快速排序2.1 基于递归2.2 基于迭代 1. 归并排序 1.1 基…

github网站打不开,hosts文件配置

首先获取github官网的ip地址&#xff0c; 打开cmd&#xff0c;输入ping github.com 配置&#xff1a; #github 140.82.114.4 github.com 199.232.69.194 github.global.ssl.fastly.net 185.199.108.153 assets-cdn.github.com 185.199.110.153 assets-cdn.github.com 185.199…

RT7625E两级电液伺服阀放大器

RT6215M、RT6225M、RT7625M、RT7625E、RTJ01、RT7325M双喷挡式两级电液伺服阀适合对位置、力和速度进行闭环控制&#xff0c;分体式比例放大器&#xff0c;无摩擦双喷嘴-挡板控制级&#xff0c;动态响应高&#xff0c;高分辨率&#xff0c;低滞环&#xff0c;干式力矩马达的二级…

windows10使用wheel安装tensorflow2.13.0/2.10.0

安装过程 安装虚拟环境安装virtualenv安装满足要求的python版本使用virtualenv创建指定python版本的虚拟环境 安装tensorflow2.13.0安装tensorflow-docs直接下载使用wheel下载 在VSCode编辑器中使用虚拟环境下的包 安装虚拟环境 这里笔者使用的是 virtualenv进行虚拟环境搭建的…

【linux基础(1)】

目录 一.linux的特殊结构二.命令简介及其格式三.ls命令四.cd和pwd命令简介1.cd命令2.pwd命令3.小结 五.绝对路径和相对路径六.特殊路径符 一.linux的特殊结构 linux的目录结构是一个树形结构 windows系统可以拥有多个盘符&#xff0c;如c盘&#xff0c;D盘&#xff0c;E盘 lin…

【C++】C++动态内存管理

&#x1f3f3;️‍&#x1f308;C/C内存分布 说明&#xff1a; 1.我们的代码并非放在代码段里的&#xff0c;而是以文件的形式存在磁盘上的。 代码经过编译链接形成的二进制指令&#xff0c;才是放进代码段里的。&#xff08;即可执行代码&#xff09; 2.“abcd”如果没有被c…

Ubuntu系统重装nvidia gpu驱动

1. 卸载原驱动 sudo apt remove *cuda* sudo apt remove *nvidia* sudo /usr/bin/nvidia-uninstall sudo dpkg -l | grep ^rc | cut -d -f3 | sudo xargs dpkg --purge sudo rm -rf ~/.cuda-license-* sudo apt purge nvidia-cuda-toolkit sudo apt remove nvidia-driver-* s…

无涯教程-JavaScript - IMABS函数

描述 IMABS函数以x yi或x yj文本格式返回复数的绝对值(模)。 Excel中的复数 复数简单地以文本形式存储在Excel中。 当将格式为" a bi"或" a bj"的文本字符串提供给Excel的内置复数函数之一时,这被解释为复数。 复数函数可以接受简单数值,因为它等效…

【面试心得】系统调用

这个问题也是在九识面试的时候被问到的&#xff0c;当时我说就是像Shell&#xff0c;从用户态转移到内核态的过程&#xff0c;面试官让我说的详细一点&#xff0c;我就说不出来了&#xff0c;然后我就说了一些函数调用的过程&#xff0c;hhhh。 现在在这里做一个记录吧。 本文…