全方位了解 Meta Llama 3

news2024/12/29 9:09:15

本文将为您提供 Llama 3 的全面概览,从其架构、性能到未来的发展方向,让您一文了解这一革命性大语言模型的所有要点。

Meta Llama 发展历程

Llama 1

Llama 是由 Meta(FaceBook) AI 发布的一个开源项目,允许商用,影响力巨大。Llama 1 是 Meta 在 2021 年进入人工智能语言模型世界的第一步。它非常聪明,能够理解和创造语言,这要归功于它拥有的 70 亿参数。但它并不完美,有时在理解复杂的观念时会有困难,或者并不总是知道基本事实。

Llama 2

从 Llama 1 中学到的经验后,Meta 在 2022 年推出了 Llama 2。这个版本更大,拥有 210 亿参数,通过阅读了更多的书籍、维基百科和公共领域的内容而变得更加智能。Llama 2 在弄清事情、理解人们的意思和了解更多事实方面变得更加优秀。Llama 2 支持 4096 上下文,性能卓越,被认为是 GPT 系列最大的竞争对手(之一)。

Llama 2 的核心改进:Llama 2 经过人类对齐微调后,更善于理解人们表达的意思,能够更准确地将言语转化为行动。它在逻辑方面更智能,通过阅读不同来源的信息学到了更多的事实,知道更多的常识。它在检测 AI 在语言任务上表现优秀的测试中表现得出色。

但是即使进行了这些升级,Llama 2 仍有很大的增长空间,尤其是在处理复杂的语言挑战方面距离GPT 3.5 和 GPT 4还有不小的差距,这也引出了 Llama 3 的出现。

Llama 3

4 月 19 日 0 点 0 分,Meta 发布了 Meta Llama 3 系列语言模型(LLM),具体包括一个 8B 模型和一个 70 B 模型。在测试基准中,Llama 3 模型的表现相当出色,在实用性和安全性评估中,与那些市面上流行的闭源模型不相上下。 模型以开源形式提供,包含 8B 和 70B 两种参数规模,涵盖预训练和指令调优的变体。Llama 3 支持多种商业和研究用途,并已在多个行业标准测试中展示了其卓越的性能。

Llama 3 性能

基准表现

与其他大参数量的大模型相比,Llama 3 在同类中处于领先地位。它特别擅长思考问题、理解故事、总结事物并进行聊天。在测试中,Llama 3 比许多其他模型表现更好,在衡量这些 AI 在语言方面智力水平的方面得分更高。

Meta官方数据显示,Llama 3 8B 模型在 MMLU、GPQA、HumanEval 等多项基准上均胜过同参数量级模型 Gemma 7B 和 Mistral 7B Instruct,而 70B 模型则超越了闭源的当红模型 Claude 3 Sonnet,并且效果上完全能与 Google 的 Gemini Pro 1.5 一较高低。

image.png

指令遵循

Llama 3 在理解和遵循各种任务步骤方面表现得非常出色。它通过示例学习,并且可以更好地理解你想让它做什么,无论是烹饪、编码还是组装东西。想象一下告诉它做一个蛋糕,它会列出所有的配料和烘焙步骤。

它在准确执行指令方面的成功率超过 90%,这比早期版本有了很大的改进。这意味着它正在逐渐接近理解复杂指令,就像人类一样。

这可能会导致智能助手通过我们的话语来执行我们要求的操作,从而使日常任务变得更轻松。

知识推理

Llama 3 擅长于将不同想法联系起来,并给出聪明的答案。就像与一个对许多事物都很了解的人进行对话一样。它能够做到从不同的地方汇集信息,回答关于科学或历史的棘手问题;弄清楚事情为什么会这样发生;对问题进行理性的猜测;通过将问题与已知的事实进行对比来发现问题所在。

它在解决需要逻辑和知识的谜题方面表现得和一些最好的人工智能一样出色,并且在理解复杂概念方面表现得越来越好。Llama 3 知识渊博,因为它已经阅读了各种主题的大量信息,这有助于它思考类似经济学或语言模式等领域的问题。将来,由于 AI 学习和理解世界的方式,我们可能会看到 AI 知道与不同领域专家一样多。

Llama 3 架构

预训练数据

在前期准备中,Llama 3 获得了来自 30 多种语言的大量混合信息,包括书籍、维基百科、新闻和网站,总共约 15000 亿比特的信息。它通过尝试填补缺失的词语或文本部分来学习,这使得它非常擅长理解语言。

总体上讲,Llama 3 的训练数据集是 Llama 2 使用的数据集的七倍多,并且包含四倍多的代码。为了为即将到来的多语言用例做好准备,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成。

训练优化

训练 Llama 3 模型结合了三种并行化方式:数据并行化、模型并行化和流水线并行化。其中最有效的实现在同时使用 16K 个 GPU 进行训练时,每个 GPU 的计算利用率达到了 400 TFLOPS 以上,在两个自定制的 24K GPU 集群上进行了训练运行。为了最大化 GPU 的正常运行时间,开发了一种先进的新训练平台,可自动化错误检测、处理和维护。我们还大大改进了硬件可靠性和静默数据损坏的检测机制,并开发了新的可扩展存储系统,减少了检查点和回滚的开销。这些改进使得整体有效训练时间超过了 95%。综合来看,这些改进使 Llama 3 训练效率相较于 Llama 2 提高了约三倍。

模型框架

Meta Llama 3 依旧采用优化的自回归 Transformer 架构,这种架构专为处理复杂的文本生成任务设计,能够有效提升生成文本的连贯性和相关性。模型结合了监督式微调(SFT)和带人类反馈的强化学习(RLHF),这种混合方法不仅增强了模型的帮助性,也提高了安全性,使得模型在实际应用中更加可靠和符合用户预期。

与 Llama 2 相比,Llama 3 做了几个关键的改进,包括:Llama 3 使用具有 128K token 词汇表的 tokenizer,可以更有效地对语言进行编码,从而显著提高模型性能;为了提高 Llama 3 模型的推理效率,研究团队在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA);在 8192 个 token 的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

11714293963_.pic.jpg

应用部署

Ollama

  • 从官方网站 ollama.com/ 下载 Ollama。

    • curl -fsSL https://ollama.com/install.sh | sh
  • 修改 ollama 服务启动脚本

    • vim /etc/systemd/system/ollama.service
    • ini
      复制代码
      [Service]  
      # 增加
      Environment="OLLAMA_HOST=0.0.0.0:11434"  
      
  • 启动ollama服务:

    • systemctl daemon-reload
    • systemctl restart ollama
  • 测试端口:

    • 直接浏览器访问 http://服务器ip:11434 ,如返回 ollama in runninng,表示正常
  • 下载 Llama 3:

    • arduino
      复制代码
      # 默认下载 8B 指令模型
      ollama run llama3
      # 70B
      ollama run llama3:70b-text
      ollama run llama3:70b-instruct
      
  • 使用 docker 部署 open-webui:

    • python
      复制代码
      docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main`
      
      # 如果镜像拉取速度慢,可以使用下面的镜像  
      docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always registry.cn-hangzhou.aliyuncs.com/pzl_images/open-webui:main
      
    • 完成后访问:http://ip:8080
    • 注册相关账号
  • 开始使用

image.png

开源之论

尽管 Llama 系列模型以开源而闻名,但是 Meta 在 Llama 的开源中可谓是费尽 “心机”。

开源友好型风险投资公司 RedPoint 的董事总经理 Erica Brescia 曾提到:“谁能向我解释一下,如果Llama 2实际上没有使用OSI(开放源码计划)批准的许可证,也不符合OSD(开放源码定义),Meta公司和微软公司又如何称Llama 2为开放源码?他们是在故意挑战OSS(开放源码软件)的定义吗?” Llama 并没有遵循上述协议,而是自定义了一套“开源规则”,包括禁止使用Llama 去训练其它语言模型,如果该模型用于每月用户超过7亿的应用程序和服务,则需要获得 Meta 的特殊许可证。

Llama 虽然自称为开源模型,但仅仅开放了模型权重——也就是训练之后的参数,但训练数据、训练代码等关键信息都未开放。

但由于大模型的算法黑盒,仅仅开放模型权重的“半开源”,导致了一个结果:用 Llama 2 的开发者再多,也不会帮助 Meta 提升任何 Llama 3 的能力和 Know-how,Meta 也无法靠 Llama 2 获取任何的数据飞轮。Meta 想要训练更强的 Llama 3,还是只能靠自己团队内部的人才、数据、GPU资源来做,还是需要做实验(比如Scailing Law)、收集更多的优质数据、建立更大的计算集群。这本质上与 OpenAI 训练闭源的 GPT-4 无异。

未来工作

多模态能力

Meta 计划在未来几年中为使 Llama 3 变得更加出色制定了宏伟计划。目前,Llama 3 可以在某些任务中处理文字和图片。但是,Meta 希望通过图像使其变得更加智能。到 2024 年底,他们计划推出 Llama 4,该版本将擅长理解并根据文本描述创建详细的图像。

这意味着它将能够做一些很酷的事情,比如平滑地改变图片的部分,调整场景的外观,并且以不同风格使图像看起来更加逼真。这就像将理解语言和看到图像的力量结合起来,以做更令人惊叹的事情。

多语言支持

目前,Llama 模型主要能够理解英语。但是,Meta 正在努力让它们理解和说更多的语言。他们计划在 2025 年底之前增加 30 多种语言,首先是流行的语言例如西班牙语、印地语和阿拉伯语。这将帮助 Llama 模型通过创建内容、翻译和理解多种语言的东西,成为一个非常有帮助的全球助手。

长程推理

Llama 3 可以思考和理解长达 8k 的文本。但是,Meta 想要进一步推动这一能力,因此未来的版本可以处理更长的文本,比如完整的研究论文。

这将使模型能够理解复杂的思想,辩论观点,并深入思考重大主题。这就是让人工智能在阅读和理解大量信息时变得更智能的方式。

领域模型

尽管 Llama 模型在许多方面表现出色,但是 Meta 希望推出专门版本,这些版本在医学、法律、金融和工程等特定领域有专业水平。通过处理这些领域,Meta 希望使 Llama 3 及其未来版本变得非常有用,不仅适用于一般任务,而且适用于特定的、复杂的和全球性的需求。

结语

Meta 的 Llama 3 模型不仅提升了 AI 技术的前沿,更通过免费开放,推动了全球范围内对高级语言模型的创新和伦理发展。随着 Llama 3 的不断优化,我们期待它在多模态能力、多语言支持以及特定领域知识方面的进一步发展。Meta 通过提供易于使用的模型、云选项、设置工具和丰富的学习资源,鼓励开发者和研究人员以一种安全和负责任的方式,将 Llama 3 的强大功能融入到他们的工作中。这不仅是 Meta 在 AI 领域的一次飞跃,也预示着一个更加智能和互联的未来。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1644066.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

让.NET 8 支持 Windows Vista RTM

众所周知,从 Windows 的每次更新又会新增大量 API,这使得兼容不同版本的 Windows 需要花费很大精力。导致现在大量开源项目已经不再兼容一些早期的 Windows 版本,比如 .NET 8 AOT编译命令行程序时生成的EXE,依赖以下三个函数&…

Raft共识算法笔记,MIT6.824,

处理leader和follow的一个重要思路是多数投票,确保系统中存在奇数个服务器(例如3台)。进行任何操作都需要来自多数服务器的同意,例如3台服务器中的2台。如果没有多数同意,系统会等待。为什么多数投票有助于避免脑裂问题…

【linux-IMX6ULL配置GPIO通用流程-以及时钟配置】

目录 1. GPIO模式控制流程1.1 LED、蜂鸣器、按键1.2 GPIO控制流程 2. 标准库的简要分析及实现:2.1 问题引入:2.2 代码实现: 3. 时钟配置总结:3.1 时钟树概要:3.2 IMX6ULL时钟概要及时钟树:3.3 IMX6ULL时钟配…

Spring Boot | Spring Boot 消息管理 ( 消息中间件 ) 、RabbitMQ“消息中间件“

目录: 一、"消息服务" 概述 :1.1 为什么要使用 "消息服务" ( 消息中间件 ) ?① 异步处理② 应用解耦③ 流量削峰④ 分布式事务管理 1.2 常用 "消息中间件" 介绍 :ActiveMQ ( 广泛应用于中小型企业 )RabbitMQ ( 没有特别要求的场景下…

XBoot:基于Spring Boot 2.x的一站式前后端分离快速开发平台

XBoot:基于Spring Boot 2.x的一站式前后端分离快速开发平台 摘要 随着信息技术的迅速发展,快速构建高质量、高可靠性的企业级应用成为了迫切需求。XBoot,作为一个基于Spring Boot 2.x的一站式前后端分离快速开发平台,通过整合微信…

CSS选择器、字体文本属性、三大特性、盒子模型等

目录 导入css简介HTML的局限性CSS-网页美化CSS语法规范CSS代码风格 选择器基础选择器复合选择器 CSS字体属性字体系列字体大小字体粗细文字样式字体复合属性 CSS文本属性文本颜色对齐文本装饰文本文本缩进行间距(即行高) CSS的引入方式emmet语法元素显示模式什么是?…

百度下拉框负面信息如何删除?

百度头条360等搜索引擎,作为人们获取信息的主要途径之一。然而,一些知名的企业或个人可能会面临在搜索的下拉框中出现负面信息的问题,这可能对其声誉和形象造成不良影响。小马识途营销顾问根据自身从业经验,针对这类情况提出以下建…

【R语言】描述性数据分析与数据可视化

我们处理的变量可以分为两类,一类是连续型变量,另一类叫做分类型变量,其中对于连续型变量,如果服从正态分布就用平均值填充NA,不服从正态分布就用中位数填充NA,对于分类型变量,不管是有序的&…

记服务器被挖矿的一次排查

1、top 查看进程使用情况,进程名为 kswapd0 用了180%的CPU,我的机器是2C的,所以基本上算是吃掉了所有的CPU资源,很明显罪魁祸首就是它。 2、执行命令 netstat -antlp | grep kswapd0 查询该进程的网络信息,发现一个与…

漫谈音频深度伪造技术

作为人工智能时代的新型媒体合成技术,深度伪造技术近年来在网络媒体中的涉及领域越发广泛、出现频次越发频繁。据路透社报道,2023年,社交媒体网站上发布50万个深度伪造的语音和视频。 1、深度伪造技术的五个方面 音频深度伪造技术&#xff…

Unity 性能优化之静态批处理(三)

提示:仅供参考,有误之处,麻烦大佬指出,不胜感激! 文章目录 前言一、静态批处理是什么?二、使用步骤1.勾选Static Batching2.测试静态合批效果 三、静态合批得限制1、游戏对象处于激活状态。2、游戏对象有一…

tomcat+maven+java+mysql图书管理系统1-配置项目环境

目录 一、软件版本 二、具体步骤 一、软件版本 idea2022.2.1 maven是idea自带不用另外下载 tomcat8.5.99 Javajdk17 二、具体步骤 1.新建项目 稍等一会,创建成功如下图所示,主要看左方目录相同不。 给maven配置国外镜像 在左上…

前端工程化06-JavaScript模块化CommonJS规范ES Module

7、JavaScript模块化 在js开发中,他并没有拆分的概念,并不像java一样他可以拆分很多的包,很多的类,像搭积木一样完成一个大型项目的开发,所以js在前期的时候并不适合大型后端的项目开发,但是这些问题在后来…

16_Scala面向对象编程_函数

文章目录 1.声明Scala函数2.访问伴生对象3.空对象直接用的方法4.构造对象--通过object获取单例对象--直接new--scala独有apply()方式--scala有参构造--scala构造方法两大类使用辅构造如下上述代码主构造为辅助构造方法甚至可以多个多个辅助构造形参内容不能重不使用辅助构造和使…

Linux文件类型及目录和文件的权限

一、Linux 文件类型 1、Windows文件类型 2、Linux文件类型 1普通文件类型 Linux 中最多的一种文件类型, 包括 纯文本文件(ASCII);二进制文件(binary);数据 格式的文件(data);各种压缩文件.第一个属性为 - 2目录文件 就是目录, 能用 # cd 命…

【微服务】服务保护(通过Sentinel解决雪崩问题)

Sentinel解决雪崩问题 雪崩问题服务保护方案服务降级保护 服务保护技术SentinelFallback服务熔断 雪崩问题 在微服务调用链中如果有一个服务的问题导致整条链上的服务都不可用,称为雪崩 原因 微服务之间的相互调用,服务提供者出现故障服务的消费者没有…

Unity 热更--AssetBundle学习笔记 1.0【AB包资源加载工具类的实现】

合集 - Unity学习笔记(13)1.Unity学习笔记–基础2023-11-012.Unity学习笔记–入门2023-10-293.Unity学习笔记–数据持久化之PlayerPrefs的使用2023-11-194.Unity学习笔记–数据持久化XML文件(1)2023-11-205.Unity学习笔记–数据持久化XML文件(2)2023-12-…

ADS基础教程8-仿真库加载

目录 一、系统库介绍二、厂商库1.模型下载1)登录官网2)选择所需模型3)点击下载4)指定保存路径 二.模型加载1)设计套件选择2)选择解压文件3)解压文件成功4)添加到当前workspace5&…

在STM32中用寄存器方式点亮流水灯

文章目录 实验资料一、对寄存器的理解1.通俗认识寄存器2.深入了解寄存器(1)端口配置低寄存器(配置0到7引脚的寄存器)(2)端口配置高寄存器(配置8到15引脚) 3.GPIO口的功能描述 二、配…

在线协作,开源的设计和原型创作平台:penpot

penpot:面向团队,设计自由- 精选真开源,释放新价值。 概览 Penpot 是一款专为跨职能团队量身定制的开源设计软件,与行业领先的 Figma 齐名,提供了一个强大而灵活的在线设计解决方案。其最大的亮点在于,用户…