Llama 3.1和xAI超集群加速AI军备竞赛

news2025/1/21 12:23:14

LLama 3.1

先来看看LLama 3.1 405B的效果,例如输入生成上海印象的四连图,然后一键再生成短视频,整体还是可圈可点。

从下面的各项基准而言,LLama3.1系列在同等量级中均有不俗的表现,尤其是405B已经和闭源的GPT-4o不分伯仲,甚至略压一头。

从各种考试成绩来看也是妥妥的优等生:

<405B的对手主要是GPT-4o和Claude3.5 Sonet>

来关注下最强的Llama 3 405B,它是一个密集的Transformer,具405B个参数和一个最多 128K个 token 的上下文窗口。同时Meta还留了一个伏笔,它们目前通过组合方法将图像、视频和语音功能集成到Llama 3,这种方法在图像、视频和语音识别任务上的表现与最先进的方法不相上下。由于仍在开发中,因此这个生成模型尚未广泛发布。

Meta认为,开发高质量基础模型有三个关键杠杆:数据、规模和管理复杂性。因此在本次系列模型中,针对这三个方面进行创新:

• 数据:与 Llama 的先前版本相比,提高了用于预训练和后训练的数据的数量和质量。这些改进包括为预训练数据开发更仔细的预处理和管理管道,以及为后训练数据开发更严格的质量保证和过滤方法。在大约15T多语言标记的语料库上对Llama 3进行了预训练,而Llama 2的语料库只有 1.8T。

• 规模:旗舰语言模型使用3.8× 10^25FLOP 进行预训练,几乎是Llama 2 最大版本的50倍。具体来说在 15.6T文本标记上预训练了一个具有405B可训练参数的旗舰模型。

• 管理复杂性:选择标准密集 Transformer模型架构并进行了一些小的调整,而不是混合专家模型 (MoE),以最大限度地提高训练稳定性。同样,采用基于监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO) 等相对简单的训方法练后阶段,而不是更复杂的强化学习算法,这些算法往往不太稳定且更难扩展。

上表为本次系列模型的具体参数细节,更多的技术侧解析将在后续推出~

孟菲斯超级集群

埃隆·马斯克和xAI推出了孟菲斯超级集群,被吹捧为“世界上最强大的人工智能训练集群”。同时宣布在12月之前发布Grok 3.0。

该集群拥有100,000个Nvidia H100 GPU。Grok 2.0已经完成了其训练阶段,并计划即将发布。xAI的目标是到 2024年底,通过Grok 3.0创建“世界上在各个评估基准上最强大的 AI”。它每小时可以消耗高达150兆瓦的电力,相当于为100,000个家庭供电,设施每天至少需要100万加仑的水进行冷却。专家预测它的能力可能会超过目前顶级超级计算机(如Frontier和Aurora)的两倍以上。

计算能力的大规模投资遵循了人工智能模型“越大越好”的行业趋势。更好的人工智能模型需要更多的计算能力,从理论上讲,孟菲斯集群可以在短短一周内训练出GPT-4的模型,而最初估计需要三个月的时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1948841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

内网横向:PTHPTKPTT

1.PHT横向 2.PTK横向 3.PTT横向 1.PHT横向&#xff1a; 条件&#xff1a;有管理员的NTLM Hash 并且目标机器开 放445端口 在工作组环境中&#xff1a; Windows Vista 之前的机器&#xff0c;可以使用本地管理员组内用户进行攻击。 WindowsVista 之后的机器&#xff0c;只能是…

【iOS】—— Block总结

Block总结 1. Block的使用规范2. __block修饰符__block修饰符的底层原理 3. Block的类型NSGlobalBlockNSStackBlockNSMallocBlock 4. Block的实现及本质初始化部分调用部分本质 5. Block的捕获与内存管理捕获变量捕获对象内存管理 6. 循环引用什么是循环引用循环引用解决方法1.…

抓包工具Charles

1、抓包的目的 遇到问题需要进行分析 发现bug需要定位 检查数据传输的安全性 接口测试时&#xff0c;开发给的需求文档不详细 在弱网环境下APP的测试 2、Charles是java语言编写的程序&#xff0c;本质是一个代理服务器&#xff0c;通过拦截服务端和客户端的http请求&#xff0…

谷粒商城实战笔记-63-商品服务-API-品牌管理-OSS获取服务端签名

文章目录 一&#xff0c;创建第三方服务模块thrid-party1&#xff0c;创建一个名为gulimall-third-party的模块2&#xff0c;nacos上创建third-party命名空间&#xff0c;用来管理这个服务的所有配置3&#xff0c;配置pom文件4&#xff0c;配置文件5&#xff0c;单元测试6&…

西瓜视频下载助手,支持批量下载视频!

我们每天都在接触海量的视频内容&#xff0c;但想要保存自己喜爱的视频却常常受限于平台的各种限制。因此&#xff0c;今天给大家带来一个超级实用的神器——西瓜视频下载助手。 西瓜视频下载助手&#xff08;电脑&#xff09; 工具支持西瓜视频的下载和今日头条的视频下载&a…

kafka详解及应用场景介绍

Kafka架构 Kafka架构&#xff0c;由多个组件组成&#xff0c;如下图所示&#xff1a; 主要会包含&#xff1a;Topic、生产者、消费者、消费组等组件。 服务代理&#xff08;Broker&#xff09; Broker是Kafka集群中的一个节点&#xff0c;每个节点都是一个独立的Kafka服务器…

如何使用EXCEL访问WinCC中的实时数据实现报表

如果项目已经做好了&#xff0c;不想改动现有项目。那么可以使用 EXCEL 通过 OPC 方式访问 WinCC 项目的数据。预先定义好 EXCEL 表格样式&#xff0c;通过以下方式实现。通过以下步骤打开 EXCEL 中的 VB 编辑器 引用 WinCC 提供的 OPC 客户端 Control 控件: Siemens OPC DAAut…

Godot游戏制作 04平台设计

新建创景&#xff0c;添加AnimatableBody2D节点。 添加Sprite2D节点 拖动图片 剪裁图片&#xff0c;吸附模式&#xff1a;像素吸附 添加CollisionShape2D&#xff0c;设置实际形状为矩形 重命名AnimatableBody2D节点为Platform&#xff0c;保存场景&#xff0c;拖动platform场景…

VirtualBox 安装Centos 7 避坑指南 SSH连不上 镜像失效 静态网络配置等

背景 几乎每次安装Centos 7 时&#xff0c;都会遇到各种各样的问题&#xff0c;毕竟每次安装动辄就是半年几年&#xff0c;几乎都是在换工作时&#xff0c;有了新机器才会倒腾一次&#xff0c;时间久远&#xff0c;就会忘记一些细节&#xff0c;这次整理一下&#xff0c;避免以…

数字图像处理笔记(三) ---- 傅里叶变换的基本原理

系列文章目录 数字图像处理笔记&#xff08;一&#xff09;---- 图像数字化与显示 数字图像处理笔记&#xff08;二&#xff09;---- 像素加图像统计特征 数字图像处理笔记&#xff08;三) ---- 傅里叶变换的基本原理 文章目录 系列文章目录前言一、傅里叶变换二、离散傅里叶变…

Vue3与Element-plus配合 直接修改表格中的一项数据——控制输入框的显示与隐藏

利用控制与隐藏输入框,直接修改表格中的每一项数据。 <!-- 表格模块 --> <div><el-table :data"tablelist" style"width: 100%"><el-table-column align"center" prop"deposit" label"接单押金">&l…

【动态规划】力扣.213. 打家劫舍 II

你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋&#xff0c;每间房内都藏有一定的现金。这个地方所有的房屋都 围成一圈 &#xff0c;这意味着第一个房屋和最后一个房屋是紧挨着的。同时&#xff0c;相邻的房屋装有相互连通的防盗系统&#xff0c;如果两间相邻的房屋在同一…

自动驾驶汽车普及之路

全球范围内自动驾驶汽车的普及正在加速。英国最近通过了 自动驾驶汽车法案 以便在未来几年内实现全自动驾驶和部分自动驾驶汽车安全融入社会。 更多自动驾驶汽车 目前&#xff0c;中国是世界上测试自动驾驶出租车最多的国家。而在美国&#xff0c;各大城市已将“自动驾驶出租车…

人工智能历史:从梦想到现实的变革之路

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

python机器学习8--自然语言处理(2)

1&#xff0e;移除用词 在很多情况下&#xff0c;有一些文章内的英文字符、标点符号分词的结果不符合自己的预期&#xff0c;会出现一些不想要的分词&#xff0c;此时就能通过以下的函数自己设定用词&#xff0c;并且删除。 jieba.analyse.set_stop_words("stop_words.tx…

哈默纳科HarmonicDrive谐波减速机的使用寿命计算

在机械传动系统中&#xff0c;减速机的应用无处不在&#xff0c;而HarmonicDrive哈默纳科谐波减速机以其独特的优势&#xff0c;如轻量、小型、传动效率高、减速范围广、精度高等特点&#xff0c;成为了众多领域的选择。然而&#xff0c;任何机械设备都有其使用寿命&#xff0c…

第五周:机器学习笔记

第五周学习周报 摘要Abstract机器学习——神经网络训练不起来怎么办&#xff1f;1. 局部最小点和鞍点1.1 Momentum(动量)1.2 Local minima和saddle point谁出现的情况更多&#xff1f; 2. 批次&#xff08;Batch&#xff09;2.1 Small Batch v.s. Large Batch Pytorch学习——T…

python项目通过docker部署到Linux系统并实现远程访问

背景需求&#xff1a;在Windows系统编写了简单的python代码&#xff0c;希望能通过docker打包到Linux Ubuntu系统中&#xff0c;并运行起来&#xff0c;并且希望在本地Windows系统中能通过postman访问。 目录 一、原本的python代码 二、创建一个简单的Flask应用程序 三、创…

SQL核心基础语法—快速入门MySQL

1.MySQL简介 MySQL其实是DBMS软件系统&#xff0c;也就是说MySQL并不是一个数据库&#xff0c;这是很多人的误区。我们经常听到的Oracle&#xff0c;MySQL&#xff0c;微软SQL Server&#xff0c;都是DBMS软件系统&#xff0c;我们只是通过这些系统来管理和维护数据库而已&…

系统架构师(每日一练7)

每日一练 1.关于网络延迟正确的是()。答案与解析 A.在对等网络中&#xff0c;网络的延迟大小与网络中的终端数量无关 B.使用路由器进行数据转发所带来的延迟小于交换机, C.使用internet服务器可最大程度地减小网络延迟 D.服务器延迟的主要影响因素是队列延迟和磁盘10延迟 2.以…