Meta 最新发布 LLaMA 2(允许商业化)

news2025/1/4 17:38:57

文章目录

  • Llama 2 模型介绍
    • Llama 2的核心点
    • Llama 2的测评结果
    • Llama 2的预训练
      • 预处理数据
      • 预训练设置和模型架构
  • Llama-2-chat 模型介绍
    • Llama-2-chat 模型在帮助性和安全性上的表现
    • Llama-2-chat 模型的训练过程

Llama 2 模型介绍

2023年7月18日,Meta 发布了Llama 2,包含7B,13B,70B三种参数(34B暂时还未发布)。
官方: https://ai.meta.com/llama/
论文:Llama 2: Open Foundation and Fine-Tuned Chat Models
模型:https://huggingface.co/meta-llama
github:https://github.com/facebookresearch/llama

Llama 2相比Llama最大亮点之一是允许商业化,但需要注意的是如果使用Llama 2的企业月活人数超过7亿,将需要向Meta申请特定的商业许可。

Llama 2的核心点

Llama 2 训练语料相比LLaMA多出40%,接受了 2 万亿个标记的训练;
Llama 2 上下文长度是由之前的2048升级到4096,可以理解和生成更长的文本;
Llama 2 的34B、70B模型采用分组查询注意力(GQA),代替了MQA和MHA,主要是考虑效果和易扩展性的权衡(GQA可以提高大模型的推理扩展性)。
在这里插入图片描述

Llama 2的测评结果

公布的测评结果显示,Llama 2 在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型。
在这里插入图片描述

Llama 2的预训练

Llama 2以 Llama 1 的预训练方法为基础,使用了优化的自回归 transformer,并做了一些改变以提升性能。
在这里插入图片描述

预处理数据

Llama 2 的训练语料库包含了来自公开可用资源的混合数据,并且不包括 Meta 产品或服务相关的数据。同时从一些包含大量个人信息的网站上删除了相关数据。

预训练设置和模型架构

Llama 2 采用了 Llama 1 中的大部分预训练设置和模型架构,包括标准 Transformer 架构、使用 RMSNorm 的预归一化、SwiGLU 激活函数和旋转位置嵌入。

与Llama 1的主要区别包括增加的上下文长度(由2048变为4096)和分组查询注意力(GQA)。

在超参数方面,Llama 2 使用 AdamW 优化器进行训练,其中 β_1 = 0.9,β_2 = 0.95,eps = 10^−5。同时使用余弦学习率计划(预热 2000 步),并将最终学习率衰减到了峰值学习率的 10%。使用了用了0.1的权重衰减和1.0的梯度剪切。训练损失如下:
在这里插入图片描述
可以看出,对2T的tokens进行预训练后,模型仍然没有出现饱和现象。

分词 采用和Llama 1 相同的分词器,即字节对编码(BPE),使用了SentencePiece中的实现,将所有数字分割成单个数字,并使用字节来分解未知的UTF-8字符,总词汇大小是32K tokens。

Llama-2-chat 模型介绍

Llama-2-chat 模型在帮助性和安全性上的表现

Llama-2-chat 模型 接受了超过 100 万个新的人类注释的训练,使用来自人类反馈的强化学习(RLHF)来确保安全性和帮助性。
Llama-2-chat 模型在帮助性和安全性(helpfulness and safety)的表现优于现有的开源模型,甚至和一些闭源模型的效果相当(评估方式为人工评估

  • 下图为Llama 2-70b-chat 和其他的开源和闭源模型在大约4000个帮助性提示的效果对比,其中Win表示赢,Tie表示持平局,Loss表示失败。
    在这里插入图片描述
    下图为 Llama 2-70b-chat 和其他的开源和闭源模型在大约2000个对抗性提示中判断模型的安全违规情况的效果对比。纵轴表示的是违规率,数值越小,表示越安全。
    在这里插入图片描述

Llama-2-chat 模型的训练过程

在这里插入图片描述
Llama 2-Chat 的训练:首先使用公开的在线资源对Llama 2进行预训练,然后通过监督微调的方式创建一个初始版本的Llama 2-Chat,最后使用具有人类反馈的强化学习(RLHF)方法,特别是通过拒绝采样和近似策略优化(PPO),对模型进行迭代优化。在整个RLHF阶段,迭代奖励建模数据的积累与模型增强并行对于确保奖励模型保持在分布范围内至关重要。

参考:https://mp.weixin.qq.com/s/PJyFoLP7IBxjbswq-NBEkA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/771970.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

字节跳动后端面试,笔试部分

背景 笔者在刷B站的时候,看到了一个关于面试的实录,前半段是八股文,后半段是笔试部分,感觉笔试部分的题目还是挺有意思的,特此记录一下。 笔试部分 问题1:SQL 这题考的是 union all 的用法,在…

流程工业停机的实际成本

流程制造工厂面临着避免停机的巨大压力,因为这可能会严重影响企业的整体生产力、盈利能力和声誉。企业对计划外停机的原因和成本了解得越多,就能做更多的事情来帮助降低停机的发生率,并在停机发生时更好地做好应对准备。 图.石油炼化工厂&…

在Redis主从系统中使用哨兵

一、什么是哨兵 Redis的哨兵(Sentinel)是Redis分布式系统中的一种特殊角色,用于监控和管理Redis主从复制架构中的主节点(master)和从节点(slave)。 哨兵的主要功能是确保Redis系统的高可用性。它…

学校教室巡课,为何你总是出错?

教育是社会进步和个人发展的重要基石,而教师的教学质量和专业能力直接关系着教育的成效和学生的学习成果。为了促进教师的专业发展和提高教学质量,在线巡课系统应运而生。 通过在线巡课系统,巡课者可以远程观察教师的授课过程,并提…

Hugging Face开源库accelerate详解

官网:https://huggingface.co/docs/accelerate/package_reference/accelerator Accelerate使用步骤 初始化accelerate对象accelerator Accelerator()调用prepare方法对model、dataloader、optimizer、lr_schedluer进行预处理删除掉代码中关于gpu的操作&#xff0…

使用Jmeter做性能测试的注意点

目录 一、性能测试注意点 二、性能指标分析 一、性能测试注意点 1. 用jmeter测试时使用BeanShell脚本获取随机参数值,会导致请求时间过长,TPS过低。应改为使用csv读取参数值,记录的TPS会更加准确。 注:进行性能测试时&#xff0…

EMC学习笔记(十七)PCB设计中的安规考虑

PCB设计中的安规考虑 1 概述2.安全标识2.1 对安全标示通用准则2.2 电击和能量的危险2.3 PCB上的熔断器2.4 可更换电池 3.爬电距离和电气间隙4.涂覆印制板4.1 PCB板的机械强度4.2 印制电路板的阻燃等级4.3 热循环试验与热老化试验4.4 抗电强度试验4.5 耐划痕试验 5.布线和供电 1…

C# 属性

文章目录 实例属性静态属性只读属性:内部只读属性:动态计算值的属性方式一:主动计算方式二:被动计算 快速生成属性的方法:输入propfull,按两下tab键,然后再按tab键一次修改有底纹的字段&#xf…

LeetCode141.环形链表

141.环形链表 目录 141.环形链表一、哈希表二、双指针 一、哈希表 最容易想到的方法就是遍历所有节点,每次遍历到一个节点的时候,判断该节点此前是否被访问过 我们可以使用哈希表来存储所有已经访问过的节点 每次到达一个节点,如果该节点已…

Cyber Triage 3.7 (Windows) - 数字取证和事件响应

Cyber Triage 3.7 (Windows) - 数字取证和事件响应 请访问原文链接:https://sysin.org/blog/cybertriage-3,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org 唯一专门用于事件响应的数字取证工具 快速、准确和简单地…

matlab使用教程(4)—数组类型

1多维数组 MATLAB 环境中的多维数组是具有多个下标的数组。创建多维数组的一种方法是调用具有多个参数的 zeros 、 ones 、 rand 或 randn 。例如, R randn(3,4,5); 创建一个 345 数组,共包含 3*4*5 60 个正态分布的随机元素。 三维数组可表示在矩…

数据库端口操作指南

数据库端口主要功能是允许用户通过从这些数据库端口推送或拉取数据,从而将各种数据库集成到用户的数据流中。 打开知行之桥 EDI 系统,在工作流界面右侧可以看到端口选项卡下有众多端口,我们打开数据库分类,可以看到知行之桥 EDI 系…

Linux文件处理命令

目录: linux系统与shell环境准备linux常用命令之文件处理Linux系统登录与文件操作 1.linux系统与shell环境准备 Linux 系统简介: Linux 内核最初只是由芬兰人林纳斯托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而…

电子病历编辑器源码

电子病历系统采取结构化与自由式录入的新模式,自由书写,轻松录入。化实现病人医疗记录(包含有首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等等。)的保存、管理、传输和重现,取代手写纸张病历。不仅实现了…

如何使用Spring Boot实现分页和排序?

使用Spring Boot实现分页和排序需要借助Spring Data JPA。Spring Data JPA是Spring Data项目中的一个模块,提供了简化数据访问层的功能,包括分页和排序。 接下来我们通过一段Java代码,展示如何使用Spring Data JPA和Spring Boot实现分页和排…

电压放大器在超声波焊接中的作用以及应用

电压放大器是一种运用于电子设备中的信号放大器,主要作用是将小信号放大为更高幅度的信号。在超声波焊接中,电压放大器起到了重要的作用,它可以将从传感器采集到的微小信号放大为能够被检测和处理的合适大小的信号。 超声波焊接是现代工业生产…

畅游NLP海洋:HuggingFace的快速入门

目录 前言一、HuggingFace介绍1-1、HuggingFace的介绍1-2、安装 二、Tokenizer分词库:分词工具2-0、加载BertTokenizer:需要传入预训练模型的名字2-1、使用Tokenizer对句子编码:2-2、使用增强Tokenizer对句子编码:2-3、批量编码单…

事件传播机制和事件委托

DOM事件流 DOM事件流(event flow )存在三个阶段:事件捕获阶段、处于目标阶段、事件冒泡阶段。事件捕获(event capturing):通俗的理解就是,当鼠标点击或者触发dom事件时,浏览器会从…

数字孪生系统为何开始尝试融合GIS系统?

数字孪生是一种通过数字模型实时仿真现实世界的技术,而GIS(地理信息系统)则是用于收集、存储、处理和展示地理数据的工具。将数字孪生系统与GIS系统进行融合,可以为各行业带来诸多优势和创新。那么数字孪生系统如何将GIS系统进行融…

Java线程相关

线程优先级 在Java线程中,通过一个整型成员变量priority来控制优先级,优先级的范围从1~10,在线程构建的时候可以通过setPriority(int)方法来修改优先级,默认优先级是5,优先级高的线程分配时间片的数量要多于优先级低的…