扎克伯格说Meta训练Llama 4所需的计算能力是Llama 3的10倍

news2024/12/26 12:49:45

Meta 公司开发了最大的基础开源大型语言模型之一 Llama,该公司认为未来将需要更强的计算能力来训练模型。马克-扎克伯格(Mark Zuckerberg)在本周二的 Meta 第二季度财报电话会议上表示,为了训练 Llama 4,公司需要比训练 Llama 3 多 10 倍的计算能力。但他仍然希望 Meta 能够提高训练模型的能力,而不是落后于竞争对手。

在这里插入图片描述
扎克伯格说:“训练 Llama 4 所需的计算量很可能是我们训练 Llama 3 所需的计算量的近 10 倍,而且未来的模型还将继续增长。很难预测未来几代人的发展趋势。但在这一点上,考虑到启动新推理项目的筹备时间较长,我宁愿冒险在需要之前建设能力,而不是为时已晚。”

Meta于今年 4 月发布了拥有 800 亿个参数的 Llama 3。该公司上周发布了该模型的升级版,名为Llama 3.1 405B,拥有 4 050 亿个参数,成为 Meta 最大的开源模型。

Meta 公司首席财务官苏珊-李(Susan Li)也表示,公司正在考虑不同的数据中心项目,并建设能力来训练未来的人工智能模型。她说,Meta 预计这项投资将在 2025 年增加资本支出。

训练大型语言模型是一项成本高昂的工作。在服务器、数据中心和网络基础设施投资的推动下,Meta 的资本支出从去年同期的 64 亿美元增至 2024 年第二季度的 85 亿美元,增长了近 33%。

根据The Information 的报道,OpenAI 在训练模型上花费了 30 亿美元,另外还以折扣价从微软租用了 40 亿美元的服务器。

"随着我们扩大生成式人工智能的训练能力,以推进我们的基础模型,我们将继续以灵活的方式建设我们的基础设施。这将使我们能够将训练能力用于基因人工智能推理或我们的核心排名和推荐工作,当我们预计这样做会更有价值时,我们就会这样做,"李开复在电话会议上说。

在电话会议上,Meta 还谈到了面向消费者的Meta AI 的使用情况,并表示印度是其聊天机器人的最大市场。但李开复指出,公司并不指望 Gen AI 产品能对收入做出重大贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1969762.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

做管理,一定要避开这6个坑,才能成就优秀管理者

做管理,一定要避开这6个坑,才能成就优秀管理者 一、被平庸的员工绑架 要是领导不敢或者不愿意惩罚或者开除那些没完成任务的员工,那优秀的员工就会觉得,做得好做得差都一样,那谁还愿意努力呢? 二、总想改变…

【Mind+】掌控板入门教程01 “秀”出我创意

我们的好朋友麦乐佳即将举办一场派对,她要求每个参加派对的人都要佩戴一个可以彰显自己独特创意的装置。可以是会发光的帽子,可以是复古的电子表,还可以是其他有创意的作品。而现在,我们的手边刚好有一块掌控板,它自带…

汇聚数字智慧 构建新质未来——《CMG数字中国》融媒体节目正式上线

7月25日,由中央广播电视总台上海总站、央视频和数创未来(上海)传媒科技有限公司联合打造的《CMG数字中国》融媒体节目正式上线。 中国共产党第二十届中央委员会第三次全体会议提出,高质量发展是全面建设社会主义现代化国家的首要…

8.Redis的List类型

Redis中的list跟java中的LinkedList比较相似,可以看做是一个双向链表的结构。 既可以支持正向检索和反向检索。 特点 1.有序 2.元素可以重复 3.插入和删除快 4.查询速度一般 应用场景 点赞和评论功能,都会存在一个顺序,谁先评论&…

AI Agent学习系列:扣子智能体手把手入门教程

AI智能体为什么现在这么火?我个人认为有以下几点原因: 智能体基于大模型而又强于大模型(垂直领域) 智能体基于零代码或者低代码模式,不需要编程基础,对于非程序员非常友好,使得大多数人都能成…

CoderGuide

CoderGuide是一个针对同学们前后端求职面试的开源项目,作为一名互联网/IT从业人员,经常需要搜索一些书籍、面试题等资源,在这个过程中踩过很多坑、浪费过很多时间。欢迎大家 Watch、Star,供各位同学免费使用,永不收费&…

【Python】pandas:替换值、添加行/列,删除行/列,更改形状(含数据透视表)

pandas是Python的扩展库(第三方库),为Python编程语言提供 高性能、易于使用的数据结构和数据分析工具。 pandas官方文档:User Guide — pandas 2.2.2 documentation (pydata.org) 帮助:可使用help(...)查看函数说明文…

9.Redis的Set类型

Redis的Set结构与java中的HashSet类似。 可以看做是一个value为null的HashMap。 特点 1.无序 2.元素不可重复 3.查找快 4.支持交集、并集、差集等功能 应用场景 实现共同关注,共同好友。 常见命令 sadd key 元素1 元素2 给set集合添加一个或多个元素 smem…

Node.js(2)——压缩前端html

需求:把回车符(\r)和换行符(\n)去掉后,写入到新的html文件中 步骤: 读取源html文件内容正则替换字符串写入到新的html文件中 示例: 获取html文件中的内容并检查(同时…

temu电商的选品师能当成副业做吗?

在当今充满机会的电商行业中,成为一名选品师是否适合作为副业呢?这是一个颇具吸引力的问题,特别是对于那些希望在自由职业和兼职之间寻找平衡的人群。TEMU电商平台的选品师角色,不仅涉及到产品的挑选,还包括市场研究、竞争分析以…

DevOps之Jenkins的CICD

文章目录 CI&CD架构Jenkins介绍GitLab安装SonarQube安装Harbor安装目标服务器的安装与配置Jenkins安装Jenkins集成SonarQube与targetJenkins集成Gitlab推送代码到目标服务器构建项目镜像 CI&CD架构 Jenkins介绍 Jenkins是一个独立的开源软件项目,是基于Java…

IIS解析漏洞~IIS6.X漏洞分析

类型代码量作用一句话木马代码量极少配合webshell管理工具使用小马代码量比小马多大马代码量最多功能比较完善(执行命令,文件操作等)图片马里面传有一句话木马 文件解析漏洞是由于中间件错误的将特殊格式的文件解析成可执行网页文件(脚本)&am…

学习记录(8):RAG and PAL and ReAct

咱就是说 习惯了做笔记 不做笔记 这知识真的是一点记不住啊(实则是脑子笨0.o 那咱就狠狠的来记住这个知识点0.o 参考学习:B站GenJi是真想教会你-《【包教包会】一条视频速通AI大模型原理》 文章目录 一、RAG:检索增强生成二、PAL&#xff1a…

VMware Workstation 17 图文安装教程

😎 作者介绍:我是程序员洲洲,一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。 🤓 同时欢迎大家关注其他专栏,我将分享Web前后端开发、人工智能、机器学习、深…

红黑树的实现及测试

目录 1.红黑树的结构 2.红黑树的节点 3.红黑树的实现 1)插入操作 1.u存在且为红 2.u不存在或存在且为黑(且cur 为 parent 的左) 3.u不存在或存在且为黑(且cur 为 parent 的右) 2)查找操作 3&#x…

63、ELK安装和部署

一、ELK日志系统 1.1、ELK平台的定义 ELK平台是一套完整的日志集中处理解决方案,将ElasticSearch、Logstash和Kiabana 三个开源工具配合使用,完成更强大的用户对日志的查询、排序、统计需求 E:elasticsearch ES分布式索引型非关系数据库,存…

Mybatis学习(2)

分页 目的:减少数据的处理量 方式一:使用limit实现分页,核心SQL sql语法:select * from user limit startIndex,pageSize; 步骤: 1、接口 2、Mapper.xml 3、测试 方式二:使用注解开发 1、…

Java同城货运搬家货运车小程序系统源码

🚚同城搬家不头疼!揭秘“同城货运搬家货运车小程序”的省心秘籍 📱开篇:一键下单,搬家新风尚 告别传统搬家的繁琐与不便,今天给大家种草一款超实用的生活神器——“同城货运搬家货运车小程序”&#xff0…

【设计模式:工厂模式】

目录 工厂模式的特点: 工厂模式种类 简单工厂模式: 简单工厂模式的创建步骤: 简单工厂代码: 工厂模式 : 特点: 工厂模式代码: 抽象工厂模式 抽象工厂的主要组成部分: 抽象…

unity中实现流光效果——世界空间下

Properties{_MainTex ("Texture", 2D) "white" {}_FlowColor ("Flow Color", Color) (1, 1, 1, 1) // 流光颜色_FlowFrequency ("Flow Frequency", Float) 1.0 // 流光频率_FlowSpeed ("Flow Speed", Float) 1.0 // 流光…