中文大模型 Chinese-LLaMA-Alpaca-2 开源且可以商用

news2025/4/19 11:08:25

 Meta 开源 LLAMA2 后,国内出现了不少以此为基座模型训练的中文模型,这次我们来看看其中一个不错的中文模型:Chinese-LLaMA-Alpaca-2 。

7f1b2030b9d9b0e229e874ad22df572c.png

01

目前在开源大模型中,比较有名的是Meta的LLAMA模型系列和清华的ChatGLM模型。

特别是在中文领域上,ChatGLM模型经过中文问答和对话的优化,更加符合中文使用者的偏好回答。

我对ChatGLM比较关注,出来的时候就开始体验和尝试本地部署,之前有几篇关于ChatGLM的文章。

ChatGLM 更新:LongBench—评测长文本理解能力的数据集,支持 32k 上下文的 ChatGLM2-6B-32K

快捷部署清华大模型 ChatGLM2-6B,一键搞定 HuggingFace Space 空间

ChatGLM2-6B 初体验

自从Meta于7月19日凌晨开源了Llama2,并且可免费商用后,国内也开始了基于Llama2的中文大模型训练,并推出了相应的中文模型。

今天推荐朋友们看看其中一个比较好的中文模型: Chinese-LLaMA-Alpaca-2,它Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力。

目前已开源的模型:Chinese-LLaMA-2(7B/13B), Chinese-Alpaca-2(7B/13B)。开源地址:

https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

看一下它的对话效果。‍‍‍‍‍‍‍‍

0adf24f6193e5e46cd6895b55aef847b.png

模型特点

优化的中文词表

在二期中,团队以一期中文字词(LLaMA:49953,Alpaca:49954)基础上的重新设计了新词表(大小:55296),进一步提升了中文字词的覆盖程度,同时统一了LLaMA/Alpaca的词表,避免了因混用词表带来的问题,以期进一步提升模型对中文文本的编解码效率

基于FlashAttention-2的高效注意力

FlashAttention-2是高效注意力机制的一种实现,相比其一代技术具有更快的速度和更优化的显存占用

当上下文长度更长时,为了避免显存爆炸式的增长,使用此类高效注意力技术尤为重要

所有模型均使用了FlashAttention-2技术进行训练

基于NTK的自适应上下文扩展技术

在一期项目中,团队实现了基于NTK的上下文扩展技术,可在不继续训练模型的情况下支持更长的上下文

在上述基础上,团队进一步设计了方便的自适应经验公式,无需针对不同的上下文长度设置相应超参

本项目模型原生支持4K上下文,利用上述技术可扩展至12K,并最高支持扩展至18K+(精度有一定损失)

模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持FlashAttention-2训练,支持4K上下文并可通过NTK方法最高扩展至18K+。

(NTK代表"Neural Tangents Kernel",是一种用于分析神经网络行为的工具,特别是在深度学习中的无穷窄网络架构。NTK分析的主要目标是了解神经网络在训练过程中的动态行为,尤其是在网络权重随机初始化的情况下,网络的输出如何随着训练数据的变化而变化。

NTK分析的核心思想是,通过使用网络的初始权重和激活函数,可以近似网络在训练过程中的行为。这种近似可以将神经网络视为一个线性的无穷窄网络,这种网络在训练过程中不会发生非线性变化。这种近似使得可以通过分析线性核函数的性质来研究网络的行为,从而更好地理解网络的一些特性,如收敛性、泛化能力等。

NTK分析在一些领域中具有应用,比如帮助理解神经网络在训练早期的行为,从而指导训练策略的设计;还可以用于研究网络架构的影响、初始化方法的选择等。然而,需要注意的是,NTK分析是一种近似方法,在某些情况下可能与真实的神经网络行为存在一些差异。)

简化的中英双语系统提示语

在一期项目中,中文Alpaca系列模型使用了Stanford Alpaca的指令模板和系统提示语

初步实验发现,Llama-2-Chat系列模型的默认系统提示语未能带来统计显著的性能提升,且其内容过于冗长

本项目中的Alpaca-2系列模型简化了系统提示语,同时遵循Llama-2-Chat指令模板,以便更好地适配相关生态

(Stanford Alpaca是一个大型中文预训练语言模型,其指令模版(Prompt Template)指的是该模型训练过程中使用的一种指令学习机制。

具体来说,Stanford Alpaca的训练采用了以下方法:

  1. 人工构建了大量的中英文指令对,如"翻译成中文" - "Translate into Chinese"。

  2. 在模型预训练时,同时输入这些指令和对应的训练文本,让模型学习执行特定指令的能力。

  3. 在微调或使用阶段,可以用这些预定义的指令提示模型执行相应的语言任务,如翻译、摘要等。

  4. 用户也可以自定义新的指令模版,扩展模型的能力。

通过这种指令学习机制,Stanford Alpaca可以更好地理解人类的意图,执行符合指令的语言处理任务,提高了模型的适用性和可控性。预定义的指令模版起到了领域自适应的作用。)

模型选择指引

下面是中文LLaMA-2和Alpaca-2模型的基本对比以及建议使用场景。

b2200774e5de282b42eabaa91fd1a79b.png

从上表看,如果以大模型为核心做应用,最好选择Alpaca-2。比如和模型聊天交互,如果想从一个基座模型,训练一个垂直行业类的模型,选择LLaMA-2比较合适。

推理与部署

模型主要支持以下量化、推理和部署方式,具体内容请参考官网的对应教程。

7cd2a171fef3c6a83cfcb7cff467f74b.png

C-Eval评测‍‍

一个全面的中文基础模型评估套件,其中验证集包含1.3K个选择题,测试集包含12.3K个选择题,涵盖52个学科,题目类型为选择题。实验结果以“zero-shot / 5-shot”进行呈现。

fac82eb5a408bc907f6f06a27cd734de.png

CMMLU评测

综合性中文评测数据集,专门用于评估语言模型在中文语境下的知识和推理能力,涵盖了从基础学科到高级专业水平的67个主题,共计11.5K个测试样例,题目类型为选择题。

f9606f686950219ed3e301516d9f89d9.png

感兴趣的朋友,可以去官网下载模型,本地或者云平台运行一下,体验对话效果,和指令执行的效果。‍‍‍

如果自己有开发基于大模型的应用,可以在此基础上,增加对这个中文模型的调用支持。‍‍

阅读推荐:

OpenAI 或于 2024 年底破产?外媒也这么爱标题党

LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?

免费!深夜福利|英伟达推出NGC目录 - GPU加速的AI模型和SDK:Llama 2和SDXL

ChatGPT 的“自定义”功能对免费用户开放,在问题信息不足情况下还会反问来获取必要信息

ChatGPT 微信助手上线!问答更便捷,功能持续升级中。

人人可拍大片!全AI制作的电影效果炸裂!

Claude 2 解读 ChatGPT 4 的技术秘密:细节:参数数量、架构、基础设施、训练数据集、成本

AI人工智能大模型失守!ChatGPT、BARD、BING、Claude 相继被"提示攻击"攻陷!

拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/885501.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue 框架下如何实现加载速度的提升

现在前端的框架有很多,甚至两只手已经数不过来,当然也完全没必要全部都学,还是应该深入的学习一两个被广泛使用的就好。其实我和大部分同学的想法一致,认为最值得我们深究的还是主流的 Vue 和 React。我们通过深入的学习了解这些框…

Docker、Linux网络代理设置

网络代理 linux机器通过windows主机代理访问外网 windows机器借用 CCProxy 软件,官网下载免费版(http://www.ccproxy.com/) CCProxy 默认使用808端口,如果端口冲突可以在设置处修改 在帐号处添加允许的linux机器ip,也可以直接允许所有ip,其…

flinksql实时统计程序背压延迟优化

问题: flinkcdcflinksql做实时读取sls日志和实时统计业务指标,今天发现程序背压了,业务延迟了6个小时。解决办法: 1、资源优化 作业并发大时:在作业的高级配置的资源配置中,增加JobManager的资源&#xf…

最低日薪2K的护网怎么才能参加?

前天,这张图在网络安全圈里传疯了,原因是黑客一年一度的盛会:HVV行动开始了。并且有人戏称昨天是黑客界的春运。 更有人建议把所有的交通工具都停掉,就没有黑客了。甚至有火车站电子大屏显示被黑客进攻,有可疑程序正在…

快速通过华为HCIP认证

你可以按照以下步骤进行准备和学习: 华为认证课程和资料--提取码:1234https://pan.baidu.com/s/1YJhD8QbocHhZ30MvrKm8hg 了解认证要求:查看华为官方网站上的HCIP认证要求和考试大纲,了解考试的内容、考试形式和考试要求。 学习相关知识&am…

Springboot 实践(5)springboot添加资源访问目录及目录测试

前文讲解了swagger测试服务控制器,实现了数据库数据访问,这些功能都是运行在后台服务器上,实际用户并不能直接调用接口获取数据,即使用户能够利用接口获取到数据,数据也是结构化数据,不能争取转化成用户使用…

【js】Array.from将类数组对象转为数组

Array.from()方法支持将类似数组的对象转为数组。所谓类似数组的对象,本质特征只有一点,即必须有length属性。因此,任何有length属性的对象,都可以通过Array.from()方法转为数组。 代码: var arrayObj {"0"…

行业首发!《硬件工程师进阶武器库》免费赠送!限量2000份,送完不补!

对于刚入硬件行业的3~5年工程师来说,如果能有一个好的师傅引路,那是最好不过的了,但是往往大神很少,能够愿意倾囊相授的也难遇到; 如果在这个阶段,能够找到行业中top级企业内部的学习资料,或者…

【正点原子STM32连载】 第七章 Geehy标准库版本MDK工程创建 摘自【正点原子】APM32F407最小系统板使用指南

1)实验平台:正点原子stm32f103战舰开发板V4 2)平台购买地址:https://detail.tmall.com/item.htm?id609294757420 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html# 第七…

图解 Paxos 算法

👏作者简介:大家好,我是爱写博客的嗯哼,爱好Java的小菜鸟 🔥如果感觉博主的文章还不错的话,请👍三连支持👍一下博主哦 📝个人博客:敬请期待 📕系列…

Dubbo基础学习(笔记一)

目录 第一章、概念介绍1.1)什么是RPC框架1.2)什么是分布式系统1.3)Dubbo概述1.3)Dubbo基本架构 第二章、服务提供者2.1)目录结构和依赖2.2)model层2.3)service层2.4)resources配置文…

vector【2】模拟实现(超详解哦)

vector 引言(实现概述)接口实现详解默认成员函数构造函数析构函数赋值重载 迭代器容量size与capacityreserveresizeempty 元素访问数据修改inserterasepush_back与pop_backswap 模拟实现源码概览总结 引言(实现概述) 在前面&…

VMware虚拟安装Ubuntu,然后切换Ubuntu内核版本

无论你选择哪种方法,一旦进入 GRUB 引导菜单,你应该能够选择需要的内核版本并启动系统。 打开终端:你可以通过按下 Ctrl Alt T 快捷键来打开终端。 使用 sudo:切换内核需要管理员权限,因此你需要使用 sudo 命令。首…

QtCreator 配置 MSVC 编译工具

在官网下载的 Qt 都是配置 mingw,没法使用 webenginewidgets,只有使用 msvc 编译的 Qt,才带有 web 控件。原理都是下载 Visual Studio 安装,使用其中的 msvc 工具,如果只下载 msvc 而不必下载使用 VS 其它工具&#xf…

【日常积累】使用frp进行内网穿透

frp 是什么? frp 是一个专注于内网穿透的高性能的反向代理应用,支持 TCP、UDP、HTTP、HTTPS 等多种协议,且支持 P2P 通信。可以将内网服务以安全、便捷的方式通过具有公网 IP 节点的中转暴露到公网。 为什么使用 frp? 通过在具…

我记不住的grep和find命令

前言: Linux操作中总是会用到查找操作,无论是查找文件、目录,还是查找文件中的内容等。grep命令用于在某个文件文本中查找指定的字符串,类似于word中的ctrlF,而find命令用于在某个指定的目录中查找某个文件或某个目录。…

深入学习SpringCloud Alibaba微服务架构,揭秘Nacos、Sentinel、Seata等核心技术,助力构建高效系统!

课程链接: 链接: https://pan.baidu.com/s/1hRN0R8VFcwjyCTWCEsz-8Q?pwdj6ej 提取码: j6ej 复制这段内容后打开百度网盘手机App,操作更方便哦 --来自百度网盘超级会员v4的分享 课程介绍: 📚【第01阶段】课程简介:全…

函数性能探测:更简单高效的 Serverless 规格选型方案

作者:拂衣、丛霄 2019 年 Berkeley 预测 Serverless 将取代 Serverful 计算成为云计算新范式。Serverless 为应用开发提供了一种全新系统架构。借助 2023 年由 OpenAI 所带来的 AIGC 风潮,以阿里云函数计算 FC、AWS Lambda 为代表的 Serverless 以其更高…

软件压力测试对软件产品起到什么作用?

一、软件压力测试是什么? 软件压力测试是一种通过模拟正常使用环境中可能出现的大量用户和大数据量的情况,来评估软件系统在压力下的稳定性和性能表现的测试方法。在软件开发过程中,经常会遇到一些性能瓶颈和稳定性问题,而软件压力测试的作…

AlexNet网络结构详解

AlexNet论文地址: https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf 1、简介 AlexNet是2012年ISLVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛的冠军网络,图像分类的正确率从70%提升到80%&…