Meta Llama3 炸裂登场:一夜刷屏AI界,基准测试中一骑绝尘,GPT-4 Turbo遭遇强劲对手

news2024/10/7 20:29:03

在 2024年4月19 日,AI界迎来了一项重大突破:Meta 公司宣布推出了迄今为止最强大的新一代开源大语言模型 Llama3。这一消息无疑为我国AI产业的发展带来了新的希望和机遇。

🎯 Llama3 系列语言模型(LLM)包括 Llama3 8B 和 Llama3 70B 两个版本,分别具备预训练和指令微调功能,支持 8K 上下文。这两个模型是在两个 24K GPU 定制集群上,使用 15万亿tokens 数据进行训练的。据 Meta 公司表示,这两个模型分别是 80亿 和 700亿 参数上的最佳表现。此外,一个参数超过 400B 的“最大Llama3”也正在紧锣密鼓地训练中,有望在性能上超越目前市场上的闭源王者 GPT-4 Turbo。

Llama3在各行业基准测试中表现出色,能够广泛支持各种应用场景。在接下来的几个月里,Meta公司将陆续推出更多新功能,包括多语言对话、多模态、更长的上下文和更强大的整体核心性能,并将与社区分享相关研究论文。

🔗 Meta 相关网址【收藏】

史上最全 Llama 3 网址资料:不要犹豫,先收藏再说,你肯定用得到!

  • Meta Llama 3 官网:https://llama.meta.com/llama3
  • Meta AI 网址:https://ai.meta.com/
  • 官网下载地址:https://llama.meta.com/llama-downloads
  • GitHub 地址:https://github.com/meta-llama/llama3
  • Huggingface 地址:https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6
  • 可直接使用 Llama 3 的平台
    • Meta AI 网址:https://ai.meta.com/
    • Hugging Chat:https://huggingface.co/chat/
    • App 下载地址:https://apps.apple.com/us/app/huggingchat/id6476778843?l=zh-Hans-CN
  • 第三方 API
    • 微软 Azure:Microsoft Azure Marketplace
    • Replicate 8B 模型:meta/meta-llama-3-8b – Run with an API on Replicate
    • Replicate 70B 模型:meta/meta-llama-3-70b – Run with an API on Replicate

📊 测评报告

  • 在 TriviaQA-Wiki 测试中,Llama 3 70B 模型的准确率达到了89.7%,这一成绩远超其他同规模的模型。
  • 在精心设计的内部评估集中,包含1,800个精选提示,涵盖12个关键用例,从咨询到编码,从创意写作到深度分析,Llama 3 在这些真实世界场景中展现了其卓越的实力。
  • 据Meta公司表示,Llama 3 不仅仅是一次进步,它是一次革命性的飞跃!在Llama 2的基础上,新一代模型在预训练和后训练的过程中都实现了质的飞越,显著降低了错误拒绝率,提升了一致性,并且丰富了模型响应的多样性。无论是推理、代码生成还是指令遵循,Llama 3 都展现了更高的可控性和精准度。

📍 横向对比

  • 在与Gemma 7B 和 Mistral 7B 的直接对比中,Llama3 8B 在多任务语言理解、生成式预训练问题回答、编码和数学等核心基准测试上毫不费力地取得胜利。更不用说,Llama3 70B 也在对决中轻松战胜了备受瞩目的 Gemini Pro 1.5 和广受赞誉的 Claude 3 Sonnet。

  • 🥊 面对Mitral 7B、Gemma 7B、Gemini Pro 1.0,以及新晋竞争者Mixtral 8x22B,Llama 3 8B和70B版本展现了它们的强大实力,将这些对手一一击败,宛如战场上的勇士,无一敌手。

  • 除了聚焦于LLM的标准基准测试,Meta还致力于提升模型在现实应用中的表现。为此,他们精心打造了一套全新且质量上乘的人工评估集,其中包含1800个精心设计的提示,涵盖了从寻求建议到头脑风暴,再到分类、封闭式问题回答、编码、创意写作、信息提取、角色扮演、开放式问题回答、推理、重写以及总结等12个核心应用场景。为了确保评估的公正性和避免过拟合的风险,即便是Meta自家的建模团队也无法触及这一评估集。
  • 在这套严格的评估体系下,Llama3 70B模型表现出色,与Claude Sonnet、Mistral Medium、GPT-3.5以及前代王者Llama2的较量中胜率显著。虽然此次对比并未包括GPT-4和Claude 3 Opus这样的业界翘楚,但我们有理由期待,后续的400B模型将肩负起更重的使命,续写辉煌篇章。

📍 Llama3 8B 能力远超 Llama 2 70-b

📍 中文有点弱

📍 Llama3 400B 还在训练中

🌈 架构与优化

  • 模型架构:Llama 3 采用了标准的纯解码器 Transformer 架构,这种架构有利于模型进行高效的自回归文本生成任务。
  • Tokenizer 改进:Llama 3 使用了具有 128K token 词汇表的 tokenizer,这比前代模型更大,能够更有效地编码语言,从而显著提升模型性能。
  • 分组查询注意力(GQA):在 8B 和 70B 模型中,Llama 3 采用了分组查询注意力机制,这有助于提高模型的推理效率。
  • 序列长度和掩码:Llama 3 在 8192 个 token 的序列上训练模型,并使用掩码来确保自注意力不会跨越文档边界,这有助于模型更好地处理长序列。
  • 预训练数据集:Llama 3 使用了超过 15T 的 token 进行预训练,这是 Llama 2 使用数据集的七倍,其中包含的代码数据是 Llama 2 的四倍,显示了 Meta 在数据量上的大量投入。
  • 多语言支持:Llama 3 的预训练数据集超过 5% 由 30 多种语言的非英语数据组成,以支持多语言的实际应用,尽管这些语言的性能可能略低于英语。
  • 数据质量控制:Meta 研究团队使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测和确保数据质量,甚至利用前代 Llama 模型来生成用于训练的文本质量分类器数据,实现了“AI 训练 AI”的概念。
  • 训练效率提升:Llama 3 在训练效率上取得了显著进步,通过结合数据并行化、模型并行化和管道并行化,以及开发新的训练堆栈和改进硬件可靠性,训练效率比前代提高了约 3 倍。
  • 基准测试:Llama 3 在多个基准测试中取得了优异的成绩,如在 MMLU、GPQA、HumanEval 等测试中得分远超其他模型,显示了其强大的性能。
  • 人类评估数据集:Meta 开发了一套新的高质量人类评估数据集,包含 1800 个提示,涵盖 12 个关键用例,以准确研究模型性能

🎯 微调注意:

LLAMA3的所有微调必须加名字

📈 梗图

此外,Meta 承诺将与全球技术社区共享 Llama3 的研究论文和开发成果,这一开放的姿态不仅体现了 Meta 对于开源文化的坚定支持,也为全球的研究人员和开发者提供了宝贵的学习和合作机会。

总而言之,Llama3 的发布不仅是Meta公司的一个重大成就,更是全球AI领域的一个重要转折点。它不仅展示了Meta在AI技术上的深厚实力,也为未来的技术创新和应用打开了无限可能。随着 Llama3 的不断完善和升级,我们有理由相信,它将成为推动AI技术发展的强大引擎,并在全球范围内激发更多的创新和合作。

学习更多关于 AI 大模型全栈知识👇

🚦【必读】50多万字「AI全栈」知识库 · 语雀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1607192.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度剖析Gateway在微服务治理中的关键角色

目录 一、多层网关 二、Gateway 路由规则 2.1 路由 2.2 谓词 2.3 过滤器 三、路由声明规则 3.1 谓词 寻址谓词 请求参数谓词 时间谓词 自定义谓词 一、多层网关 首先我们先了解下一个请求是如何到达服务端并得到相应的。过程如图所示: 首先网址解析的第一步是 DN…

2024年分享酷我音乐如何下载mp3的方法

这里教大家用酷我音乐小程序的下载方法,小程序下载资源的方法有3种 1.利用专业的抓包工具(Fiddler/Charles)进行获取,然后分析数据包,最后直接用下载器下载分析出来的链接。强烈不推荐,因为大部分人并非程序员出身 2.录屏,录屏效率太慢,所以也不推荐 3. 利用专门的下载资源的…

第49篇:简易处理器<三>

Q:本期我们来设计实现以上介绍的简易处理器,并进行仿真。 A:简易处理器顶层.v文件代码,顶层文件中例化实现处理器的子模块3-8译码器以及寄存器。 仿真示例:DIN (100)8在30 ns时加载到 IR中,而DIN (100)8对…

基于LSTM的负荷预测

长短 期 记 忆 网 络 ( long short term memory, LSTM) [11-12]作为一种特殊的循环神经网络( recurrent neural network,RNN) ,主要用于解决长序列训 练过程中的梯度消失和梯度爆炸问题。典型的 LSTM 结构如…

高中数学:三角函数之考点精华-对称性相关问题

一、对称性的几种情况 1、1个对称点/对称轴 此种情况,用整体换元法解题 参考:三角函数的整体换元法 2、2个对称点 画图 如果两个对称点之间的距离是a,则函数周期T2a 3、2个对称轴 画图 如果两个对称轴之间的距离是a,则函数…

[Python开发问题] Selenium ERROR: Unable to find a matching set of capabilities

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

【计算机毕业设计】点餐平台网站——后附源码

🎉**欢迎来到琛哥的技术世界!**🎉 📘 博主小档案: 琛哥,一名来自世界500强的资深程序猿,毕业于国内知名985高校。 🔧 技术专长: 琛哥在深度学习任务中展现出卓越的能力&a…

天赐和美,大麗和和典藏珍罕翡翠手镯巡礼

翡翠玉镯矜贵难得,从整块质地完美的珍贵原玉中取出,切磨过程往往会造成玉料损耗。色佳、种水细腻且无纹裂的手镯更是难得一见。质素上乘的宝石级翡翠几乎全部产自缅甸,历来珍罕稀有,备受倾慕。大麗和和怀着对翡翠的钟情与对东方气韵的热爱,臻呈「天赐和美」和和典藏缅甸翡翠手镯…

故障诊断 | 基于迁移学习和SqueezeNet 的滚动轴承故障诊断(Matlab)

目录 效果一览基本介绍程序设计参考文献 效果一览 基本介绍 将一维轴承振动信号转换为二维尺度图(时频谱图),并使用预训练网络应用迁移学习对轴承故障进行分类。 迁移学习显著减少了传统轴承诊断方法特征提取和特征选择所花费的时间&#xff…

通过实例学C#之FileStream类

简介 可以通过此类进行文件读取。 首先在项目所在文件夹的Bin文件中新建一个test.txt文件,里面输入内容“hello world!”。 构造函数 FileStream (string path, FileMode mode,FileAccess access) 通过路径文件path,打开文件模式mode以及读写…

智能内容分析:Kompas.ai如何揭示内容表现的秘密

在数字营销的世界里,内容分析是衡量内容表现、优化策略并实现营销目标的关键。通过深入分析内容的各项指标,品牌能够更准确地理解其内容的市场表现,从而做出更加明智的营销决策。本文将深入探讨内容分析的重要性,详细介绍Kompas.a…

医疗信创发展走势

2023年:医疗信创的“元年” ----------------------医疗信创的主要任务------------------------ (一) 电脑终端方面 行政办公类电脑终端需支持信创改造,实现“应替尽替真替真用”的目标。 (二) 系统改造方面 1.与诊疗业务无关的信息系统 行政办公…

Navicat导入数据与导出数据

1. 导出数据 * 1. 在表格管理中找打导出向导.* 2. 选择导出格式.* 3. 勾选需要导出的表格(其他设置默认即可).* 4. 选择每张表需要导出的字段(默认即可).* 5. 附加选项(默认即可).* 6. 点击开始.* 7. 默认导出导入到桌面.2. 导入数据 * 0. 先删除原先的表格, 好演示效果. * 1…

CentOS显示mac地址错误|虚拟机克隆|CentOS静态ip

文章目录 怎么复制虚拟机?修改虚拟机静态ip遇到的错误解决 怎么复制虚拟机? 方法一: 方法二: 1.以前创建好的虚拟机所在文件夹复制一份,改名字 2.在虚拟机中打开 后缀为.vmx文件 3.启动虚拟机 修改虚拟机静态ip …

51单片机实验04 -数码管的动态显示实验

目录 一、实验目的 二、实验内容 三、实验原理 四、实验方法 五,实验效果及代码 1,效果 2,代码 六,课后习题 1,使用定时器T0的中断函数1 从999999~0计时 1)效果 2)代码 2&#xff0c…

OpenHarmony开发实例:【仿桌面应用】

介绍 本示例实现了一个简单桌面应用,实现了以下几点功能: 1.展示了系统安装的应用,实现点击启动、应用上滑弹出卡片、卡片添加到桌面、卡片移除功能。 2.实现桌面数据持久化存储,应用支持卸载、监听应用卸载和安装并显示。 3.…

Arcgis Pro2.5安装教程(内含安装文件)

​最近处理的数据量大,发现arcmap这种老产品属实是不行了,相比于下一代的Arcgis Pro,不但运行速度慢,也容易遇到突然关闭的问题,之前基于团队的选择也没办法,最近实在是被数据搞得无语了,一鼓作气装上了Arc…

武汉星起航:亚马逊上的中国智慧,创新与差异化策略赢得全球赞誉

在全球电商的浪潮中,亚马逊作为行业的佼佼者,为众多商家提供了一个展示自我、实现价值的舞台。在这其中,中国商家以其独特的创新和差异化策略,逐渐在亚马逊平台上崭露头角,赢得了全球消费者的青睐。 中国商家在亚马逊…

新手入门:大语言模型训练指南

在这个信息爆炸的时代,人工智能技术正以前所未有的速度渗透到我们生活的方方面面。从智能手机上的语音助手到自动驾驶汽车,AI的应用无处不在。而在这些令人惊叹的技术背后,大语言模型(LLM)扮演着至关重要的角色。它们不…

(六)Pandas文本数据 学习简要笔记 #Python #CDA学习打卡

一. 文本数据简介 1)定义 指不能参与算术运算的任何字符,也称为字符型数据。如英文字母、汉字、不作为数值使用的数字(以单引号开头)和其他可输入的字符。 文本数据虽不能参加算术运算,但其具有纬度高、量大且语义复杂等特点,因…