Meta 发布地表最大、最强大模型 Llama 3.1

news2024/11/17 16:03:39

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。

最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。

《大模型面试宝典》(2024版) 发布!

《AIGC 面试宝典》圈粉无数!

喜欢本文记得收藏、关注、点赞。更多实战和面试交流,欢迎交流


近日,Meta 公开发布了 Llama 3.1 405B,为这是目前世界上最大、功能最强的开源基础模型。到目前为止,Llama的所有版本的下载量已超过3亿次。

介绍 Llama 3.1

Llama 3.1 405B 是第一个在通用知识、操控性、数学、工具使用和多语言翻译等方面达到当前先进水平的 AI 模型。随着 405B 模型的发布,我们将全力推动创新,带来前所未有的增长和探索机会。我们相信,新一代拉玛将引发新的应用和建模范式,包括合成数据生成,以帮助改进和训练较小的模型,以及模型蒸馏——这是在开源领域从未实现过的能力。

在此次最新版本中,我们推出了升级版的8B和70B模型。这些模型支持多种语言,上下文长度大幅提升至128K,具备最先进的工具使用能力和整体更强的推理能力。这使得我们的最新模型能够支持高级用例,如长篇文本摘要、多语言对话代理和编程助手等。我们还对许可证进行了更改,允许开发者使用Llama模型(包括405B)来改进其他模型。正如我们对开源的承诺,从今天起,我们将在llama.meta.com和Hugging Face上向社区开放这些模型的下载,并在我们的广泛合作伙伴平台生态系统上供立即开发使用。

模型的评测

对于此次发布,我们对150多个涵盖多种语言的基准数据集进行了性能评估。此外,我们还进行了广泛的人工评估,在现实世界场景中比较Llama 3.1与竞争对手模型的表现。我们的实验评估表明,我们的旗舰模型在包括GPT-4、GPT-4o和Claude 3.5 Sonnet在内的多种任务上与领先的基础模型具有竞争力。此外,我们的较小模型与具有相似参数数的封闭和开放模型具有竞争力。

图片

图片

图片

Model Architecture

As our largest model yet, training Llama 3.1 405B on over 15 trillion tokens was a major challenge. To enable training runs at this scale and achieve the results we have in a reasonable amount of time, we significantly optimized our full training stack and pushed our model training to over 16 thousand H100 GPUs, making the 405B the first Llama model trained at this scale.

图片

为了解决这个问题,我们做出了一些设计决策,旨在确保模型开发过程具有可扩展性和直观性。

  • 我们选择了一种标准的仅包含解码器的变换器模型架构,并对其进行了一些微小的调整,以最大限度地提高训练的稳定性。

  • 我们采用了迭代的后训练流程,每一轮都采用监督微调和直接偏好优化。这使我们能够为每一轮生成最高质量的合成数据,并提高每个能力的性能。

与之前的版本相比,我们在预训练和后训练的数据使用方面都提高了数据的数量和质量。这些改进包括开发更仔细的预处理和数据整理流程,以及更严格的质量保证和数据过滤方法。

正如预期的语言模型缩放定律那样,我们的新旗舰模型在性能上优于使用相同程序训练的较小模型。我们还使用405B参数模型来提升我们较小模型的后训练质量。

Instruction and chat fine-tuning

在Llama 3.1 405B版本中,我们致力于提高模型对用户指令的响应速度、质量和详细指令遵循能力,同时确保高水平的安全性。我们面临的最大挑战是支持更多的功能、128K上下文窗口和模型尺寸的增加。

在后训练阶段,我们通过在预训练模型之上进行多轮对齐来生成最终的聊天模型。每一轮都包括监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。我们使用合成数据生成来产生大多数的SFT示例,并多次迭代以生成所有功能的更高质量的合成数据。此外,我们还投资于多种数据处理技术,以过滤出最高质量的合成数据。这使我们能够在功能上扩展微调数据的数量。

我们仔细平衡数据,以在所有能力方面生成高质量的模型。例如,即使将上下文扩展到128K,我们仍会保持短上下文基准上的模型质量。同样,即使我们添加了安全缓解措施,我们的模型仍将继续提供最有帮助的答案。

The Llama system

羊驼模型(Llama models)的设计初衷是作为整体系统的一部分,以协调包括调用外部工具在内的多个组件。我们的愿景是超越基础模型,为开发人员提供更广泛的系统访问权限,使他们能够根据自己的愿景设计和创建定制化产品。这种思维始于去年,当时我们首次将核心LLM之外的组件纳入其中。

作为我们持续致力于在模型层之外负责任地开发人工智能并帮助他人这样做的一部分,我们正在发布一套完整的参考系统,其中包括几个示例应用程序和新的组件,如多语言安全模型“Llama Guard 3”和提示注入过滤器“Prompt Guard”。这些示例应用程序是开源的,社区可以基于它们进行构建。

这个Llama系统愿景中的组件实现仍然比较分散。因此,我们已经开始与行业、初创企业和更广泛的社区合作,以更好地定义这些组件的接口。为此,我们在GitHub上发布了一份“Llama栈”的征求意见稿。Llama栈是一套标准化且有倾向性的接口,用于构建标准的工具链组件(微调、合成数据生成)和有主动性的应用程序。我们的希望是这些接口能够在生态系统中得到采用,从而促进更便捷的互操作性。

我们欢迎反馈和改进提案的方法。我们很高兴能够促进Llama生态系统的发展,并降低开发者和平台提供商的进入门槛。

Openness drives innovation开放推动创新。

Unlike closed models, Llama model weights are available to download. Developers can fully customize the models for their needs and applications, train on new datasets, and conduct additional fine-tuning. This enables the broader developer community and the world to more fully realize the power of generative AI. Developers can fully customize for their applications and run in any environment, including on prem, in the cloud, or even locally on a laptop—all without sharing data with Meta.

While many may argue that closed models are more cost effective, Llama models offer some of the lowest cost per token in the industry, according to testing by Artificial Analysis. And as Mark Zuckerberg noted, open source will ensure that more people around the world have access to the benefits and opportunities of AI, that power isn’t concentrated in the hands of a small few, and that the technology can be deployed more evenly and safely across society. That’s why we continue to take steps on the path for open access AI to become the industry standard.

We’ve seen the community build amazing things with past Llama models including an AI study buddy built with Llama and deployed in WhatsApp and Messenger, an LLM tailored to the medical field designed to help guide clinical decision-making, and a healthcare non-profit startup in Brazil that makes it easier for the healthcare system to organize and communicate patients’ information about their hospitalization, all in a data secure way. We can’t wait to see what they build with our latest models thanks to the power of open source.

Building with Llama 3.1 405B

对于普通开发者来说,在405B这种规模上使用模型是具有挑战性的。尽管它是一个非常强大的模型,但我们认识到它需要大量的计算资源和专业知识才能使用。我们与社区进行了交流,并意识到生成式AI开发不仅仅是简单的模型提示。我们希望让每个人都能充分利用405B,包括:

  • 实时和批量推理

  • Supervised fine-tuning 监督微调

  • 针对您特定应用场景对模型进行评估

  • Continual pre-training 持续预训练

  • Retrieval-Augmented Generation (RAG)检索增强生成(RAG)

  • Function calling 函数调用

  • Synthetic data generation

这就是Llama生态系统所能提供的帮助。从第一天开始,开发者就可以利用405B模型的所有高级功能并立即开始开发。开发者还可以探索诸如易于使用的合成数据生成等高级工作流程,遵循现成的指导来进行模型精简,并通过合作伙伴提供的解决方案实现无缝RAG(推理加速),包括AWS、NVIDIA和Databricks。此外,Groq已针对云部署优化了低延迟推理,戴尔也在本地系统上实现了类似的优化。

图片

我们与诸如vLLM、TensorRT和PyTorch等关键社区项目合作,从一开始就为社区做好支持工作,确保社区做好了生产部署的准备。

我们希望405B的发布也能激发整个社区的创新,使大规模模型的推理和微调变得更加容易,从而推动下一波模型压缩研究的发展。

今天就试试Llama 3.1系列模型吧!

我们迫不及待地想看看社区会如何利用这项工作。利用多语言性和增加的上下文长度,可以构建许多有用的新体验。有了Llama Stack和新的安全工具,我们期待与开放源码社区继续负责任地合作。在发布模型之前,我们会通过多种措施进行识别、评估和缓解潜在风险,包括通过红队进行预部署风险发现演练,以及进行安全微调。例如,我们与外部和内部专家进行了广泛的红队演练,以对模型进行压力测试,并找出它们可能被意外使用的方式。(有关我们在负责任地扩展Llama 3.1模型集方面的更多信息,请参阅此博文。)

虽然这是我们目前最大的模型,但我们相信未来仍有许多新的领域值得探索,包括更适合设备的尺寸、更多的模态以及在代理平台层上的更多投资。一如既往,我们期待看到社区利用这些模型构建的令人惊叹的产品和体验。

This work was supported by our partners across the AI community. We’d like to thank and acknowledge (in alphabetical order): Accenture, Amazon Web Services, AMD, Anyscale, CloudFlare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM WatsonX, Infosys, Intel, Kaggle, Microsoft Azure, NVIDIA DGX Cloud, OctoAI, Oracle Cloud, PwC, Replicate, Sarvam AI, Scale.AI, SNCF, Snowflake, Together AI, and UC Berkeley - vLLM Project.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1955948.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

简单几步,把浏览器书签转换成导航网页

废话不多说直奔主题上干货 Step 1 下载浏览器书签 1,电脑浏览器点击下载Pintree Pintree 是一个开源项目,旨在将浏览器书签导出成导航网站。通过简单的几步操作,就可以将你的书签转换成一个美观且易用的导航页面。 2. 安装 Pintree B…

《Java初阶数据结构》----10.<Map和Set---TreeSet和TreeMapHashSet和HashMap >

前言: 大家好,我目前在学习java。我准备利用这个暑假,来复习之前学过的内容,并整理好之前写过的博客进行发布。如果博客中有错误或者没有读懂的地方。热烈欢迎大家在评论区进行讨论!!! 喜欢我文…

高并发内存池(四)Page Cache的框架及内存申请实现

目录 一、Page Cache的框架梳理 二、Page Cache的实现 2.1PageCache.h 2.2VirtualAlloc 2.3std::unordered_map _idSpanMap,> 2.4Page Cache.cpp 一、Page Cache的框架梳理 申请内存: 1. 当central cache向page cache申请内存时,page cache先检…

2024年7月29日 十二生肖 今日运势

小运播报:2024年7月29日,星期一,农历六月廿四 (甲辰年辛未月甲午日),法定工作日。 红榜生肖:羊、虎、狗 需要注意:兔、牛、鼠 喜神方位:东北方 财神方位:…

论文阅读:Deformable DETR: Deformable Transformers for End-to-End Object Detection

论文阅读:Deformable DETR: Deformable Transformers for End-to-End Object Detection Deformable DETR: 基于稀疏空间采样的注意力机制,让DCN与Transformer一起玩! - 知乎 (zhihu.com) 【Deformable DETR 论文源码解读】Deformable Trans…

Linux嵌入书学习—数据结构——栈(seqstak)

一、栈; 定义: 是限定仅在表尾(栈顶)进行插入和删除操作的线性表 栈又称为 后进先出(Last In First Out) 的线性表,简称 LIFO 结构 栈顶(Top) 栈顶是栈中允许进行添加&…

构建大规模账号池与本地部署:GitHub爬虫项目详解

账号池搭建 必要性 常见登录方式: 基于Session Cookie的登录基于JWT的登录:登录生成JWT字符串 账号池存储cookie或者JWT字符串 方便后续发请求爬取数据 本地部署 conda建立一个虚拟环境 conda create -n new_env python3.x # 替换 x 为你需要的 P…

【 C++ 】 类和对象的学习

前言: 😘我的主页:OMGmyhair-CSDN博客 目录 引言: 一、类的作用域 二、计算类对象的大小 三、this指针 this指针❓1 this指针❓2 this指针❓3 引言: 通过类我们可以对数据和方法进行封装 封装的意义&#xf…

【Android】实现一个优雅的自定义底部导航栏(速通安卓大作业必备)

文章目录 前言一、实现思路二、代码实现流程①修改theme:②在color文件中添加颜色:③添加图标文件④添加选中时布局的背景⑤修改布局文件⑥按钮效果图:⑦修改MainActivity中的代码⑦创建各个界面的Fragment⑧运行结果: 三、 总结 …

【学术会议征稿】第五届人工智能与教育国际学术会议(ICAIE 2024)

第五届人工智能与教育国际学术会议(ICAIE 2024) 2024 5th International Conference on Artificial Intelligence and Education 第五届人工智能与教育国际学术会议(ICAIE 2024)由集美大学诚毅学院主办,闽南师范大学…

福昕PDF编辑器v13专业版 授权版

福昕高级PDF编辑器是一款功能强大的PDF文件编辑软件,提供多种实用的编辑功能。 软件截图: 使用说明: 解压后,双击start.bat来运行软件 下载地址:FoxitPDFEditor-Pro-v13 解压密码:helloh 下载时可能会有…

动手学大模型应用开发笔记--用dash开发一个大模型知识库

简介 动手学,把自己学到的东西动手自己做出来并输出,是最好的学习方式。最近一直在关注和使用各种ai工具,也在学一些ai开发的知识,看到datawhale的开源学习教程,动手学大模型开发( [github.com/datawhalech…])这个教…

高频面试题基本总结回顾(含笔试高频算法整理)暂存篇

干货分享,感谢您的阅读! (暂存篇---后续会删除,完整版和持续更新见高频面试题基本总结回顾(含笔试高频算法整理)) 备注:引用请标注出处,同时存在的问题请在相关博客留言…

dockerfile部署镜像 ->push仓库 ->虚拟机安装建木 ->自动部署化 (详细步骤)

目录 创建私服仓库 vi /etc/docker/daemon.json vim deploy.sh判断脚本内容 创建 建木 后端部署 命名空间 设置密码用户名 创建git仓库 gitignore文件内容 图形项目操作 git maven docker镜像 点击流程日志 vim /etc/docker/daemon.json 执行部署脚本 ip 开发…

代码性能优化(3)——聊聊多线程

代码的性能优化,有些是从逻辑层面进行的,比如同时对50W个人发放奖励,可以改成用户登录的时候,自动领取有没奖励,或者统计每日的每个业务员的销售额和实时累积的销售额,将实时sum函数改成,每一笔…

24种设计模式介绍与6大设计原则(电子版教程)

前言 您是一个初级的 coder,可以从中领会到怎么设计一段优秀的代码;您是一个高级程序员,可以从中全面了解到设计模式以及 Java 的边角技术的使用;您是一个顶级的系统分析师,可以从中获得共鸣,寻找到项目公共问题的解决…

StarRock3.3 安装部署

服务器前置要求: 1、内存>32GB 2、JDK 8 is not supported, please use JDK 11 or 17 1、安装 wget https://releases.starrocks.io/starrocks/StarRocks-3.3.0.tar.gz tar zxvf StarRocks-3.3.0.tar.gz 2、FE服务启动 2.1 配置FE节点(默认配置,…

dns和 openELB

DNS yum -y install bind允许其他的主机来监听,允许其他的主机来查询,改这两个地方就行了。 把需要解析的文件都添加进来,cp -p的意思是保留原来的权限控制 注意本地dns放在 DNS1 二、负载均衡 OpenELB Layer2 模式 BGP模式 OpenELB …

DBeaver使用SQL脚本编辑器

文章目录 1 新建脚本2 选择数据库3 编写脚本【按行执行】参考 1 新建脚本 2 选择数据库 3 编写脚本【按行执行】 光标放到需要执行的行上,点击【最上面的按钮】 或者选中某片代码,然后执行 也可以编写一个脚本然后执行 参考 dbeaver安装和使用教程 …

Linux文件恢复

很麻烦 一般还是小心最好 特别恢复的时候 可能不能选择某个文件夹去扫描恢复 所以 删除的时候 用rm -i代替rm 一定小心 以及 探索下linux的垃圾箱机制 注意 一定要恢复到不同文件夹 省的出问题 法1 系统自带工具 debugfs 但是好像不能重启? testdisk 1、安装 …