【LLM微调】Llama3.1-8B模型中文版!OpenBuddy发布新一代跨语言模型

news2024/9/20 14:34:37

简介: 7月23日,Meta发布了新一代开源模型系列:Llama3.1。其中405B参数的版本刷新了开源模型性能的上限,在多种指标上的测试成绩接近GPT-4等闭源模型的水平,甚至在部分基准测试中展现出来了超越头部闭源模型的潜力。

本次发布我们在Llama3.1上首个工作:OpenBuddy-Llama3.1-8B-v22.1-131K。

Llama3.1:开源模型的新里程碑

7月23日,Meta发布了新一代开源模型系列:Llama3.1。其中405B参数的版本刷新了开源模型性能的上限,在多种指标上的测试成绩接近GPT-4等闭源模型的水平,甚至在部分基准测试中展现出来了超越头部闭源模型的潜力。

在这里插入图片描述

同时,Meta在本次发布时修改了许可协议中对数据蒸馏方面的限制,允许开发者使用Llama3.1-405B模型的输出训练其它模型。

Llama3.1-8B-Instruct:利用合成数据增强小模型

除了模型尺寸的提升之外,Meta还尝试了在数据集构成、训练方法、 位置编码缩放等方向上增强模型的综合能力,并于同日发布了8B、70B模型的3.1增强版本。

Llama3.1-8B-Instruct基于8种语言的语料、问答对进行训练,支持英语、德语、法语、意大利语、葡萄牙语、西班牙语、印地语和泰语。借助特有的长文扩容技术,其上下文长度高达131072 tokens。模型训练集中的知识截止日期更新到了2023年12月,和上个版本相比具备更新的知识储备。

除了语言、长文、时效性方面的提升外,Meta尝试了借助405B模型等大模型合成数据,并用合成数据提升小模型的能力的路线。在后期训练中,Meta使用了超过2500万条合成数据,使8B小模型的能力得到进一步提升。

在代码、数学等测试模型的认知、推理能力的基准中,Llama3.1-8B-Instruct取得了令人振奋的成绩,具备和GPT 3.5 Turbo相接近的综合能力水平:

在这里插入图片描述

OpenBuddy-Llama3.1-8B-v22.1:新一代开源跨语言模型

尽管Llama3.1仍然不具备中文能力,但模型已经在8种语言上得到了充分的训练,具备一定的跨语言潜力。本次时长约为半天的训练过程中,我们尝试使用了约10%的少量数据,在Llama3.1-8B-Instruct的基础上进行以增强中文语言能力为主要目标的训练过程。

经过少量数据训练后,模型具备了中文问答和跨语言翻译能力。和上一代8B模型相比,本次发布的模型在一些容易产生概念混淆的问题上,能够输出通常只有更大模型才能生成的答案,具备更强的认知潜力。

Q: 为什么手机只有100/100的电啊,根本就不够用,建议以后手机都有200/200的电

A: 手机电量显示为 100/100 的设计主要是为了向用户提供一个直观的电量剩余指示。这种设计简化了电量显示,使得用户可以快速了解当前的电量状况。然而,实际上,手机的电池容量并不是 100 单位,而是以毫瓦时(mAh)或瓦时(Wh)等单位来衡量,这意味着它们能够存储和释放电能的量。

手机电量显示为 100/100 的设计反映了电池容量的最大值,但这并不意味着电池在达到 100% 时就无法再充电。实际上,电池在充满电后仍然可以继续充电,只是电量显示不会再增加了。这种设计有助于保护电池,避免过度充电导致电池寿命缩短。

如果手机电量显示设计改为 200/200,虽然在直观上可能给用户带来更大的满意感,但实际上并不改变电池的存储能力。用户可能会误以为电池的容量翻倍了,而实际上只是显示方式的改变。这种设计可能会导致用户在电量显示接近 200% 时误以为电池已经充满电,从而忽视了电池的实际充电情况。

因此,虽然从用户体验角度考虑,提供一个更大的显示范围(如 200/200)可能会让用户感到更加满意,但从电池管理和用户教育的角度来看,保持电量显示为 100/100 的设计是更合理的选择。这样既可以避免误导用户,也有助于保护电池的健康。

欢迎访问我们在ModelScope中的项目页面,下载、体验我们的模型。

受训练数据集和训练时间的限制,本次发布的模型在中文知识,尤其是传统文化知识上仍存在幻觉。尽管本次训练过程中未使用长文数据,但得益于模型原本的长文能力,模型在长文理解等任务上具备相对稳定的表现。

未来,我们计划对8B和70B模型进行更大规模的训练,从而进一步增强模型的中文知识储备、长文能力和认知能力。

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
      - L1.4.1 知识大模型
      - L1.4.2 生产大模型
      - L1.4.3 模型工程方法论
      - L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
      - L2.1.1 OpenAI API接口
      - L2.1.2 Python接口接入
      - L2.1.3 BOT工具类框架
      - L2.1.4 代码示例
    • L2.2 Prompt框架
      - L2.2.1 什么是Prompt
      - L2.2.2 Prompt框架应用现状
      - L2.2.3 基于GPTAS的Prompt框架
      - L2.2.4 Prompt框架与Thought
      - L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
      - L2.3.1 流水线工程的概念
      - L2.3.2 流水线工程的优点
      - L2.3.3 流水线工程的应用
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
      - L3.1.1 Agent模型框架的设计理念
      - L3.1.2 Agent模型框架的核心组件
      - L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
      - L3.2.1 MetaGPT的基本概念
      - L3.2.2 MetaGPT的工作原理
      - L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
      - L3.3.1 ChatGLM的特点
      - L3.3.2 ChatGLM的开发环境
      - L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
      - L3.4.1 LLAMA的特点
      - L3.4.2 LLAMA的开发环境
      - L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

学习计划:

  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的所有 ⚡️ 大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

全套 《LLM大模型入门+进阶学习资源包↓↓↓ 获取~

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1966185.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

折叠想象,「天池AI IP形象征集大赛」火热进行中!

天池十周年,我们诚挚邀请各路创作人才围绕「天池平台Al形象」进行创意施展,借助AIGC技术,创造属于天池的独一无二的Al IP形象。我们渴望见到充满“活力、创新、智能〞风格的Al IP设计浮出水面,它将成为天池平台的Al 官方形象&…

Python 中的 NotImplemented 和 NotImplementedError

前言 Python 中的 NotImplemented 和 NotImplementedError 很像,都用来表示没有实现的意思。它们具体有什么区别呢? NotImplemented NotImplemented 是 Python 中的一个特殊常量,注意它不是一个异常类,是一个值。所以它是用在 …

TCP 和 UDP 之间的区别?

从 连接,可靠性,传输方式等方面: TCP 是面向连接的协议,在发送数据的时候需要先通过 TCP 的三次握手,而 UDP 是无连接的协议,可以直接传输数据TCP 通过超时重传,流量控制和拥塞控制等方法保障了…

聚芯前行|美格智能亮相2024 ChinaJoy骁龙主题馆,展现数字娱乐的无限可能

7月26日,2024中国国际数码互动娱乐展览会(ChinaJoy)在上海新国际博览中心正式拉开帷幕。美格智能携手高通公司亮相骁龙主题馆,以5G-A毫米波MiFi解决方案及高算力AI模组,共同为广大玩家和粉丝打造了一个前沿技术赋能、充…

Vivo手机怎么录屏?教你操作,vivo手机完美录屏攻略

随着智能手机的普及,录屏功能成为了我们日常生活和工作中不可或缺的一部分。vivo手机作为一款备受欢迎的智能手机品牌,拥有着许多实用的工具和丰富的功能,其中包括强大的录屏功能。本文将为您详细介绍2种vivo手机怎么录屏的方法。无论您是想分…

找工作很迷茫?程序员的岗位宝典来了!

随着数字化转型进展深入,大量数字化、智能化的岗位相继涌现。 但即使这样,大家依然认为,找到一份合适的工作实在是太!难!了! 调查显示,技术创新和商业模式正在成为助推企业发展的两大动力。同时…

TOSHIBA东芝代理商--芯智雲城,提供订货、报价、选型等服务!

关于东芝 东芝创立于1875年7月,是日本大型半导体制造商,全球知名的综合机电制造商和解决方案提供者,世界大型综合电子电器企业集团。东芝集团原名东京芝浦电气株式会社,在1939年东京电器与芝浦制作所正式合并成为现在的东芝&…

想不到WhaleStudio和Talend的差异竟如此之大!

最近我们遇到很多客户需求是把Talend迁移到WhaleStudio,主要是发现WhaleStudio支持的数据源多很多,从各个版本的SAP到AWS Redshift,S3,从MangoDB CDC到 Neo4J甚至各种国产信创数据源,可谓应有尽有。同时,客…

ROC曲线的一点理解

1 背景知识 真阳率(TPR)和假阳率(FPR): 真阳率(TPR):又称召回率(Recall),计算公式为 ​,表示实际为正的样本中被正确分类为正的比例…

STC12C5A60S2单片机输出pwm的方法

所谓的pwm输出就是让单片机在某个管脚上按照时间输出特定频率和占空比的矩形方波。这里面有两个参数,一是频率,二是占空比。两者互不干涉。以STC12C5A60S2为例子,本51型单片机可以有两路pwm输出。以其中的一路为例说明; 首先说频…

专题八_分治-归并

目录 912. 排序数组 解析 题解 LCR 170. 交易逆序对的总数(数组中的逆序对) 解析 题解 315. 计算右侧小于当前元素的个数 解析 题解 493. 翻转对 解析 题解 912. 排序数组 912. 排序数组 解析 题解 1.局部临时数组 class Solution { public:vector<int> so…

换地不换IP?揭秘微博IP地址的奥秘

在这个信息飞速传递的时代&#xff0c;社交媒体成为我们生活中不可或缺的一部分。微博&#xff0c;作为其中的佼佼者&#xff0c;不仅是我们获取资讯的重要渠道&#xff0c;也是展现自我、分享生活的重要平台。然而&#xff0c;你有没有遇到过这样的情况&#xff1a;明明已经换…

智能相机背后的图像防抖(IS)技术介绍

智能相机背后的图像防抖(IS)技术介绍 在现代摄影和视频拍摄中&#xff0c;防抖技术已成为必不可少的一部分。随着智能手机、相机和其他成像设备的普及&#xff0c;防抖技术的需求也越来越高。本文将详细介绍几种主要的防抖技术&#xff0c;包括光学防抖&#xff08;OIS&#x…

【Redis 初阶】客户端(C++ 使用样例列表)

一、编写 helloworld 需要先使用 redis-plus-plus 连接一下 Redis 服务器&#xff0c;再使用 ping 命令检测连通性。 1、Makefile Redis 库最多可以支持到 C17 版本。&#xff08;如果是用 Centos&#xff0c;需要注意 gcc/g 的版本&#xff0c;看是否支持 C17。不支持的话&a…

【第五节】python异常处理

目录 一、python中的异常用法 1.1 try-except 1.2 异常处理流程&#xff1a; 1.3 try-finally 1.4 使用except是否指定异常 二、异常的参数 三、自定义异常 四、常见的异常列举 一、python中的异常用法 异常是指程序运行过程中出现的非正常状态。在Python编程中&#x…

线程的创建Linux下

进程的创建&#xff1a;第一个参数通常传递一个pthread_t 的地址&#xff0c;第二个参数为线程的属性&#xff0c;第三个参数为函数指针&#xff0c;是子线程要做的事情。arg是函数指针所对应函数的参数。 sleep主要是为了等待子线程退出&#xff0c;因为当主线程退出时&#x…

WebSocket connection to ‘ws://x.x.x.x:8080/ws‘ failed:报错

vue.config.js中进行修改 添加 devServer: { Proxy: {ws:false }}

Flink-StarRocks详解:第二部分(第52天)

文章目录 前言2. 表设计2.1 StarRocks表设计2.1.1 列式存储2.1.2 索引2.1.3 加速处理2.1.3.1 预先聚合2.1.3.2 分区分桶2.1.3.3 物化视图2.1.3.4 列级索引 2.2 数据模型2.2.1 明细模型2.2.1.1 适用场景2.2.1.2 创建表2.2.1.3 使用说明 2.2.2 聚合模型2.2.2.1 适用场景2.2.2.2 原…

[C++] vector对比list deque的引出

文章目录 list与vector的对比双端队列dequedeque的特性deque的底层实现原理内存结构块表&#xff08;Block Array&#xff09;块&#xff08;Block&#xff09; 插入与删除两端插入两端删除 随机访问如何计算位置 迭代器设计 总结 list与vector的对比 vector与list都是STL中非…

实战AR增强现实【OpenCV+Ogre】

作为一份小小的礼物&#xff0c;我想向你展示借助 Ogre 和 OpenCV 自己制作增强现实变得多么容易。你应该知道&#xff0c;除了图形之外&#xff0c;我的另一个兴趣是计算机视觉。 演示将不依赖于 ARCore 或 ARKit 等专有解决方案 - 所有这些都将使用开源代码完成&#xff0c;…