国内最大Llama开源社区发布首个预训练中文版Llama2

news2024/10/6 1:42:16
f8f067a750858c2d685f0293d3de9a4b.jpeg

"
7月31日,Llama中文社区率先完成了国内首个真正意义上的中文版Llama2-13B大模型,从模型底层实现了Llama2中文能力的大幅优化和提升。毋庸置疑,中文版Llama2一经发布将开启国内大模型新时代!


| 全球最强,但中文短板

Llama2是当前全球范围内最强的开源大模型,但其中文能力 亟待提升 Meta不负众望,于7月19日凌晨开源了第一代LLaMA的升级版:Llama2,7B、13B和70B三种大小的模型全开放并且可免费商用。 作为AI领域最强大的开源大模型,Llama2基于2万亿token数据预训练,并在100万人类标记数据上微调得到对话模型。在包括推理、编程、对话和知识测试等许多基准测试中效果显著优于MPT、Falcon以及第一代LLaMA等开源大语言模型,也第一次媲美商用GPT-3.5,在一众开源模型中独树一帜。 04dd94a210f59d778581c5a2564e084f.jpeg 05b4c2cacc1699fd08d1e861aa40fc5f.jpeg 虽然Llama2的预训练数据相对于第一代扩大了一倍,但是中文预训练数据的比例依然非常少,仅占 0. 13% ,这也导致了原版Llama2的中文能力较弱 我们对于一些中文问题进行提问,发现大多数情况下Llama2都不能以中文回答,或者以中英文混杂的形式回答问题。因此, 需要基于大规模中文数据对Llama2进行优化,使Llama2具备更好的中文能力。 9bf8e61e6404e9b3f5fd1d7397302305.jpeg

为此国内顶尖高校大模型博士团队创办了Llama中文社区,开启了Llama2中文大模型训练征程。

| 最领先的Llama中文社区

Llama中文社区是国内 最领先的开源大模型中文社区 ,Github在两周内即达到 2.4k star,由清华、交大以及浙大博士团队领衔,汇聚了60+AI领域高级工程师以及各行业2000+顶级人才。

7547d8c460e73556c1cf49ea96fc8ed1.jpeg

社区链接
https://github.com/FlagAlpha/Llama2-Chinese
0cfbad0f614c5e38c8977eb13a81f80b.jpeg

 社区历程:


b86f4b3a571047bbcd8e400e7b2f391b.jpeg


| 首个预训练中文版Llama2模型发布!

不是微调!而是基于200B中文语料预训练!

7月31日,Llama中文社区率先完成了国内首个真正意义上的中文版13B Llama2模型:Llama2-Chinese-13B,从模型底层实现了Llama2中文能力的大幅优化和提升。 Llama2的中文化可以采用大致两种路线: 1.   基于已有的中文指令数据集,对预训练模型进行指令微调,使得基座模型能够对齐中文问答能力。这种路线的优势在于成本较低,指令微调数据量小,需要的算力资源少,能够快速实现一个中文Llama的雏形。 但缺点也显而易见,微调只能激发基座模型已有的中文能力,但由于Llama2的中文训练数据本身较少,所以能够激发的能力也有限,治标不治本,从根本上增强Llama2模型的中文能力还是需要从预训练做起。 2. 基于大规模中文语料进行预训练。这种路线的缺点在于成本高不仅需要大规模高质量的中文数据,也需要大规模的算力资源。但是优点也显而易见,就是能从模型底层优化中文能力,真正达到治本的效果,从内核为大模型注入强大的中文能力 为了从内核实现一个彻底的中文大模型 我们选择了第二条路线! 我们汇集了一批高质量的中文语料数据集,从预训练开始优化Llama2大模型。部分预训练数据数据如下: 类型 描述网络数据互联网上公开的网络数据,挑选出去重后的高质量中文数据,涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据Wikipedia中文Wikipedia的数据悟道中文悟道开源的200G数据ClueClue开放的中文预训练数据,进行清洗后的高质量中文长文本数据竞赛数据集近年来中文自然语言处理多任务竞赛数据集,约150个MNBVCMNBVC 中清洗出来的部分数据集 首期 Llama2-Chinese-13B 模型的预训练数据包含 200B token,未来,我们将持续不断地迭代更新 Llama2-Chinese,逐步将预训练数据提升到1T token。除此以外,我们也将逐步开放70B模型的中文预训练版本,敬请期待!
8176553a50aba4aa31484afed41e5bb2.jpeg 我们从通用知识、语言理解、创作能力、逻辑推理、代码编程、工作技能等不同方面提问大模型,得到了令人满意的效果  部分效果展示如下:
  • 通用知识
0192045de7ebd214c7b56e192fda9132.jpeg
  • 语言理解
3a7827a0f1b4975cbd6862e395b1e172.jpeg
  • 创作能力
05dd674577d4927c75bad0f1bc649ec7.jpeg
  • 逻辑推理
f938c5a81f194835c198bd1535b6a96f.jpeg
  • 代码编程
0b32af881ad4cdaff69b93b3afe0287b.jpeg
  • 工作技能
fd0bacd5bb8b7f1ff033a1dc287011a2.jpeg



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/827879.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu20.04进入桌面后左上角光标闪动

T 光标闪烁就是后台一系列活动的简化,它表示后台有一系列活动在进行,只是我们看不到。也因此让我们觉得它像是卡住了。 Y 一开始误以为是由于我安装其他启动动画导致的,后来换回默认的动画发现不是这个原因。 后来我试了各种方法&#xff…

Android安卓实战项目(7)---购物APP(源码在文末)

Android安卓实战项目(7)—购物APP(源码在文末🐕🐕🐕) 一.项目运行介绍 【bilibili展示】 https://www.bilibili.com/video/BV1xh4y1C7o1/?share_sourcecopy_web&vd_sourceb2e9b9ed746acd…

Linux系统安装部署MongoDB完整教程(图文详解)

前言:本期给大家分享一下目前最新Linux系统安装部署MongoDB完整教程,我的服务器采用的是Centos7,在部署之前我重装了我的服务器,目的是为了干净整洁的给大家演示我是如何一步步的操作的,整体部署还是挺简洁&#xff0c…

Vue3基础知识(待续)

Vue是什么 构用户界面的js的渐进式框架,基于htlm、css、js,并提供声明式组件化的编程模型,帮你高效开发用户界面。无论简单或复杂的界面Vue都可以胜任。 vue是一个框架,同时也是一个生态。因为有很多程序员支持vue,开…

【Python】Web学习笔记_flask(4)——钩子函数

钩子函数可以用来注册在请求处理的不同阶段执行出 Flask的请求钩子指的是在执行视图函数前后执行的一些函数, 之前是有4种,但是 before_first_request已经被删除了,使用时会报错 before_request:在每次请求前执行,…

Arc A770M的蝰蛇峡谷迷你电脑主机值得入手吗?

相比于已经走上正轨的NUC迷你电脑产品,英特尔的独显,特别是最新一代Arc(锐炫)还是犹抱琵琶半遮面。通过蝰蛇峡谷NUC,它算是正式亮相了。 这里的Serpent Canyon是英特尔NUC系列的最新产品。它在NUC 12 Enthusiast版本中…

高级C语言

1.day1 1、mobaxterm使用 1、更方便的使用虚拟机终端; 2、新建一个终端,CTRL SHIFT U; 3、清屏,CTRL L; 2、gdb调试 参考《gdb调试器练习》 2.day2 3.day3 1、vin自动生成main函数 1)打开vim的配置文件; s…

【开源源码学习】

C 迷你高尔夫 一款打高尔夫的游戏。亮点是碰撞反应和关卡设计。 GitHub - mgerdes/Open-Golf: A cross-platform minigolf game written in C. TypeScript 俄罗斯方块 复刻经典的俄罗斯方块,项目采用ReactReduxImmutable的技术栈。 GitHub - chvin/react-tetr…

【Web】基于C#的学生选课系统开发

目录 一、实验目的二、设计数据库表三、设计学生、课程和已选课程类四、 系统流程图五、功能流程图六、总结 一、实验目的 1、设计学生类(学号 | 姓名 | 班级 | 初始密码) 2、设计课程类(课程代码 | 课程名称 | 学分) 3、设计已选…

HTML5 Canvas(画布)

<canvas>标签定义图形&#xff0c;比如图表和其他图像&#xff0c;你必须用脚本来绘制图形。 在画布上&#xff08; Canvas &#xff09;画一个共红色矩形&#xff0c;渐变矩形&#xff0c;彩色矩形&#xff0c;和一些彩色文字。 什么是 Canvas&#xff1f; HTML5<c…

数据库的分库分表

#!/bin/bash ######################### #File name:db_fen.sh #Version:v1.0 #Email:admintest.com #Created time:2023-07-29 09:18:52 #Description: ########################## MySQL连接信息 db_user"root" db_password"RedHat123" db_cmd"-u${…

linux安装Tomcat及部署jpress的详细教程!!!

一、YUM在线安装 1、查看Tomcat相关安装包 [rootlocalhost ~]# yum list | grep tomcat tomcat.noarch 7.0.76-16.el7_9 updates tomcat-admin-webapps.noarch 7.0.76-16.el7_9 updates tomcat-docs…

msvcr100.dll丢失的解决方法?三招解决msvcr100.dll丢失问题

最近我遇到了一个电脑问题&#xff0c;就是在运行某个软件时提示缺少msvcr100.dll文件。起初我并不知道这个文件是什么&#xff0c;也不知道它的作用&#xff0c;但通过一番搜索和了解&#xff0c;我对这个问题有了更深的理解&#xff0c;并且也得到了解决的办法。 解决方法一&…

分享学习java过程中遇到的一些网址

*****JavaWeb视频教程***** https://www.bilibili.com/video/BV1m84y1w7Tb?p4&spm_id_frompageDriver&vd_source841fee104972680a6cac4dbdbf144b50*****Java前端官网教程&#xff08;HTML、CSS、JS)***** https://www.w3school.com.cn/html/index.asp*****VS Code官网…

阶段性实验汇总

文章目录 前言一、实验目的与要求1.目的2.要求 二、实验拓扑三、实验步骤1.阅读实验拓扑2.配置基础环境3.配置DHCP及其中继服务器&#xff08;一&#xff09;DHCP主服务器&#xff08;二&#xff09;DHCP中继服务器(三)登录客户端验证 4.配置DNS服务器&#xff08;一&#xff0…

faac内存开销较大,为方便嵌入式设备使用进行优化(valgrind使用)

faac内存开销较大&#xff0c;为方便嵌入式设备使用进行优化&#xff0c;在github上提了issues但是没人理我&#xff0c;所以就搞一份代码自己玩吧。 基于faac_1_30版本&#xff0c;原工程https://github.com/knik0/faac faac内存优化: faac内存开销较大&#xff0c;为方便嵌入…

RS232转Profinet网关rs232转网口需要如何设置

大家好&#xff0c;今天我要给大家带来一个很有意思的案例分享。你们猜猜&#xff0c;这回我们要用捷米的一款神奇的网关JM-RS485/232-PN做什么呢&#xff1f;没错&#xff0c;我们要把一台扫码枪设备通过这个RS232转PROFINET网关&#xff0c;接入到一台西门子S7-1200PLC的Prof…

无涯教程-Lua - for语句函数

for 循环是一种重复控制结构&#xff0c;可让您有效地编写需要执行特定次数的循环。 for loop - 语法 Lua编程语言中 for 循环的语法如下- for init,max/min value, increment dostatement(s) end 这是 for 循环中的控制流程- 首先执行 init 步骤&#xff0c;并且仅执行一…

DT MAYA绑定

设置另外一边 控制器 结果 根骨骼 // 错误: line 0: 未应用冻结变换&#xff0c;因为 curve4.scaleX 被锁定。 骨骼旋转 轴向

关于latch up的重读

衬底电流容易导致寄生三极管导通(衬底电阻衬底电流》衬底压差)&#xff0c;更容易触发latchup&#xff1b; 一般常用的实际产品中会用衬底隔离的器件来做负压器件&#xff1b;用DNW&NBL组成一个隔离盆将整个负压区和正常电路分开&#xff0c;DNW&NBL接高电压&#xff1…