Baichuan-13B:130亿参数的开源语言模型,引领中文和英文benchmark

news2024/10/5 14:30:35

0038e88e566a9c94ed72e6da816c9967.jpeg

Baichuan-13B: 一个强大的开源大规模语言模型

标题:Baichuan-13B:130亿参数的开源语言模型,引领中文和英文benchmark

Baichuan-13B是由百川智能开发的一个开源大规模语言模型项目,包含了130亿参数。该模型在中文和英文的权威benchmark上达到了同尺寸模型的最佳效果。这个项目发布了两个版本,包括预训练版本(Baichuan-13B-Base)和对齐版本(Baichuan-13B-Chat)。

Baichuan-13B具有以下几个特点:首先,它比之前的Baichuan-7B模型参数更多、尺寸更大,达到了130亿参数,并在高质量的语料上进行了1.4万亿tokens的训练,比LLaMA-13B模型多出了40%的训练数据量,是目前开源的13B尺寸模型中训练数据量最大的。其次,Baichuan-13B支持中英双语,并且使用了ALiBi位置编码,上下文窗口长度为4096。再次,该项目同时开源了预训练模型和对齐模型,预训练模型作为开发者的基础模型,而对齐模型则具备强大的对话能力,可以直接使用且部署简单。最后,为了支持更广大用户的使用,该项目还同时开源了int8和int4量化版本,这些版本在几乎没有效果损失的情况下大大降低了部署所需机器资源,甚至可以在消费级显卡(如Nvidia 3090)上进行部署。

Baichuan-13B是免费开源且可商用的,无论是学术研究还是开发者都可以自由使用。只需进行官方商用许可的邮件申请,即可免费商用。

在各个权威的中英文benchmark上,Baichuan-13B进行了5-shot评测,其结果如下:

○ STEM:Baichuan-7B:38.2,Chinese-Alpaca-Plus-13B:35.2,Vicuna-13B:37.8

○ Social Sciences:Baichuan-7B:52.0,Chinese-Alpaca-Plus-13B:45.6,Vicuna-13B:48.2

○ Humanities:Baichuan-7B:46.2,Chinese-Alpaca-Plus-13B:40.0,Vicuna-13B:42.6

○ Others:Baichuan-7B:39.3,Chinese-Alpaca-Plus-13B:38.2,Vicuna-13B:39.9

○ Average:Baichuan-7B:42.8,Chinese-Alpaca-Plus-13B:38.8,Vicuna-13B:42.1

通过这些benchmark结果可以看出,Baichuan-13B相比其他模型,在多个领域的测试中取得了更好的效果。

Baichuan-13B项目的目标是提供一个强大的开源大规模语言模型,以帮助学术研究和开发者进行自然语言处理任务。无论是处理中文还是英文,Baichuan-13B都可以提供高质量的语言建模和对话功能。该项目的开源和免费商用政策,使得更多的人可以充分利用这个强大的资源,加速他们的研究和开发工作。

项目:baichuan-inc/Baichuan-13B

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/768391.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Nginx深入浅出亿级流量架构设计(更新至2023.7.18)

基于Nginx深入浅出亿级流量架构设计 环境准备/安装部署Nginx四个发行版本简单介绍Nginx的安装 Nginx的目录结构与基本运行原理及其最小配置解析Nginx虚拟主机与域名配置ServerName匹配规则反向代理在系统结构中的应用场景Nginx的反向代理配置基于反向代理的负载均衡器 环境准备…

自洽性改善语言模型中的思维链推理

自洽性改善语言模型中的思维链推理 摘要介绍对多样化路径的自洽实验实验设置主要结果当CoT影响效率时候,SC会有所帮助与现有方法进行比较附加研究 相关工作总结 原文: 摘要 本篇论文提出了一种新的编码策略——自洽性,来替换思维链中使用的…

【STM32】SPI屏幕刷图总结:GPIO模拟,硬件SPI,DMA+硬件SPI

文章目录 GPIO模拟SPI硬件SPI外设DMA硬件SPI外设总结 代码工程:https://github.com/liefyuan/stm32-spi-st7789-tft.git 前言 我的屏幕的分辨率是:240*320 驱动是:ST7789V 线驱动方式:四线SPI(CS,DC&#…

206. 反转链表

给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1]示例 2: 输入:head [1,2] 输出:[2,1]示例 3: 输入&am…

PageObject+Python+Appium

目录 前言: 简介 功能 常用目录 配置 实例 - 第一次启动 app 实例 - 登录 代码入口实例 结果展示 前言: Page Object模式是一种常用的设计模式,用于组织和管理自动化测试脚本中的页面对象。它将页面的元素和操作封装在一个独立的类…

数据质量相关问题系列

数据质量问题是什么? 数据质量,是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。而数据质量问题是指数据集中存在无法容忍的缺陷,从而降低该数据的可靠性和可信度。简单理解就是数据很脏…

【JAVA】云HIS系统功能菜单知识(一)

一、云HIS特色 云HIS滚动消息栏:质控消息、住院时长、药库结转、患者入院、医嘱停止、新开医嘱、门诊用药不良、出院审核、药品调拨、排班提醒、药品库存、药品过期、药品临期等帮助医生、护士和相关管理人员实时接收院内消息并作出处理。 二、云HIS功能菜单 【预约…

【MySQL】MySQL事务保姆级教程(适合MySQL初学者学习)

🧑‍💻作者名称:DaenCode 🎤作者简介:啥技术都喜欢捣鼓捣鼓,喜欢分享技术、经验、生活。 😎人生感悟:尝尽人生百味,方知世间冷暖。 📖所属专栏:重…

桥接模式——连接抽象维度和实现维度

桥接模式 bridge pattern 一 定义 桥接模式,是将抽象部分与它的具体实现部分分离,使它们都可以独立地变化。它是将两个不同的维度建立联系。这两个维度通常是指:抽象维度和实现维度。 使用场景 在抽象和具体实现之间需要增加更多的灵活性…

找不到dll的问题解决,loadlibrary 126错误

症状:loadlibrary时,getlasterror返回126,表示是找不到模块错误。来到目录下看到依赖所需的dll均存在 解决办法: 1.下载ProcmonProcmom-监视进程所有的动作资源-CSDN文库https://download.csdn.net/download/gergul/880597622.运…

RocketMQ第四节(部署模式、监控面板等)

1:mq的部署模式 部署方式 | RocketMQ 参考官网。 单机模式:抗风险能力差,单机挂机没服务,单机硬盘损坏,丢失数据 多机(多master没有Slave副本): 多个master采用RAID10磁盘,不会丢…

[java安全]类加载器CommonsCollections3

文章目录 【java安全】类加载器&CommonsCollections3前言java类加载器URLClassLoader利用ClassLoader#defineClass()直接加载字节码 使用TemplatesImpl加载字节码TemplatesImpl中字节码实现AbstractTranslet类 构造未完成POCTrAXFilter类调用newTransformer()InstantiateTr…

【AI绘画Stable Diffusion】高清图像放大+面部修复+一键抠图,谈谈你可能不知道的优化技巧!

一提起后期处理,我猜你可能立马想到的就是图像放大。 今天,我要向你展示的后期处理手法,以及优化技巧。 图片放大算法 如果你常用的是秋叶大佬的整合包,那么你对"R-ESRGAN 4x"和"R-ESRGAN 4x Anime6B"应该…

FPGA单端口RAM——IP核

文章目录 前言一、RAM简介1、随机存储器IP核分类1、RAM IP核2、ROM IP核 2、RAM IP核 二、IP核配置步骤三、源码1、ram_rw驱动文件2、ip_1port_ram顶层文件3、仿真文件4、仿真波形 四、SignalTap II在线调试五、总结六、参考资料 前言 环境: 1、Quartus18.1 2、vsco…

Leetcode-每日一题【1019.链表中的下一个更大结点】

题目 给定一个长度为 n 的链表 head 对于列表中的每个节点,查找下一个 更大节点 的值。也就是说,对于每个节点,找到它旁边的第一个节点的值,这个节点的值 严格大于 它的值。 返回一个整数数组 answer ,其中 answer[…

Servlet的监听器

Servlet常用的监听器 ServletContextAttributeListener 用来感知ServlerContext对象属性变化,比如添加或删除属性变化 ServletContextListener 用来感知ServlerContext对象的创建和销毁的 ServletRequestListener 可以用来监听感知ServletRequest对象的创建和销毁的…

大语言模型(LLM)评估综述

论文地址:https://arxiv.org/abs/2307.03109 Github地址:https://github.com/MLGroupJLU/LLM-eval-survey 一 、背景 随着ChatGPT和GPT-4的推出,大型语言模型(LLM)在学术界和工业界的热度日益升高,这主要…

优雅的设计测试用例

⭐️前言⭐️ 入职以后接触到了公司的具体业务,提升了设计测试用例的能力,于是沉淀出这篇文档与大家分享。 🍉欢迎点赞 👍 收藏 ⭐留言评论 📝私信必回哟😁 🍉博主将持续更新学习记录收获&…

Acwing.905 区间选点(贪心)

题目 给定N个闭区间[a,bi],请你在数轴上选择尽量少的点,使得每个区间内至少包含一个选出的点。输出选择的点的最小数量。 位于区间端点上的点也算作区间内。 输入格式 第一行包含整数N,表示区间数。 接下来N行,每行包含两个整数…

Linux内核《CPU负载计算》

目录 前言一、什么是CPU负载?二、如何计算CPU负载三、计算CPU负载的一个脚本四、top命令详解 前言 在实际的产品开发中,我们往往需要关注CPU的负载,确保程序可以长久稳定的运行,并且能够重复发挥SOC的性能。Linux中提供了一些命令…