官宣!Meta正在训练Llama 3,将继续开源

news2024/9/29 11:28:41

1月19日,全球社交、科技巨头Meta的联合创始人兼首席执行官-Zuck(扎克伯格)在is宣布,正在训练Llama 3并且以负责任地方式继续开源。

Zuck表示,预计到2024年底,Meta将拥有350,000块H100,如果算上其他算力资源将达到近600,000块H100。

所以,Meta有足够的AI算力资源来支持其生成式AI和FAIR(旗下AI部门)的技术研究。未来,会公布更多的产品消息。

去年8月,就有过传言Meta正在训练Llama 3。现在,官方正式确认,这对于企业、个人开发者来说都是一个好消息,可以继续以开源的方式使用与GPT-4、Gemini Ultra相媲美的大模型。

图片

类ChatGPT开源模型鼻祖——Llama

早在去年2月,ChatGPT火爆出圈时,全球多个国家、地区皆在尝试开发类似的产品。虽然已经有一些开源产品,但在功能、能耗等方面与其相差甚远。

同月,Meta重磅开源了类ChatGPT开源模型LLaMA。随后,国内外不少科研机构、个人开发者在LLaMA基础之上,开发了众多知名开源项目。但LLaMA有一个致命缺点,无法商业化只能用于研究。

图片

LLaMA与ChatGPT同样是基于Transformers架构演变而来,共有70亿、130亿、330亿和650亿参数四种类型,接受了20种不同语言文本的训练。

数据训练方面,LLaMA使用公开可用的数据集进行训练,其中包括开放数据平台Common Crawl、英文文档数据集C4、代码平台GitHub、维基百科、论文平台ArXiv等,总体标记数据总量大约在1.4万亿个Tokens左右。

Meta认为,在更多标记(单词)上训练的较小模型,更容易针对特定的潜在产品用例进行再训练和微调,同时性能也更加聚焦。

2023年7月,Meta在LLaMA基础之上训练、开源了LLaMA 2,拥有70亿、130亿、340亿和700亿四种参数,并且这一代终于允许商业化

Llama 2 预训练模型接受了2万亿个标记的训练,上下文长度是Llama 1的两倍。其微调模型已经接受了超过100 万个人类注释的训练,整体性能非常强悍。

目前,Llama 2也是整个生成式AI开源界应用最多的大模型之一。

开源生成式AI联盟主力军——Meta

看到生成式AI的庞大场景化落地,Meta已经将其列为重要发展赛道。

为了对抗OpenAI、谷歌为代表的闭源阵营,去年12月,Meta联合甲骨文、英特尔、AMD、IBM、索尼、戴尔等57家科技、学术研究等知名机构组成了“AI联盟”。

这个联盟有6大目标,其中重要一项便是要搭建开源大模型生态,包括从研究、评估、硬件、安全、公众参与等一整套流程。

事实上,Meta作为这个联盟的主要发起者和“盟主”,在2023年,除了LLaMA,还开源了一系列重要模型。

开源文本生成音乐模型Audiocraft:这是一个混合模型,由MusicGen、AudioGen和EnCodec组合而成。用户仅用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏开发、社交、视频配音等业务场景。

最大公开多模态视频数据集—Ego-Exo4D:该数据集收集了来自13个城市839名参与者的视频,总时长超过1400小时,包含舞蹈、足球、篮球、攀岩、音乐、烹饪、自行车维修等8大类,131个复杂场景动作。这使得AI模型更好地理解人类的行为,有助于开发出更强大的多模态大模型。

开源视觉模型DINOv2:采用了一种新的高性能计算机视觉模型的方法,无需微调具备自我监督学习(SSL),可以从任何图像集合中学习。还可以学习当前标准方法无法学习的特征,例如,深度估计。

可以预见,2024年,Meta将继续扬帆起航,开源更多的重磅产品造福全球开发者和企业。

本文素材来源Meta官网、扎克伯格is,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1396137.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JAVA SECS发送Report C#处理SECS Report SECS发送事件资料大全 S6F11 建立通讯S1F13

发送S6F11非常简单,只需5~6行代码,最核心是代码清晰易懂。 任何人都可以一看就能上手,如果说用代码可读性作为不可替代性的壁垒就无话可说了。 private void buttonS6F11_Click(object sender, EventArgs e) {int nTransaction 0;// 数据部…

Java中创建List接口、ArrayList类和LinkedList类的常用方法(一)

List接口 要了解List接口,就不得不说起Java的集合框架。 (该图来自菜鸟教程) Collection接口和Map接口 Java 集合框架主要包括两种类型的容器,集合Collection和图Map。 Collection接口代表了单列集合,它包含了一组…

画面滤镜特效SDK,企业级视频处理技术方案

视频处理技术日新月异,对于企业而言,如何快速、高效地处理视频内容,增加其观赏性和吸引力,成为了一项重要的挑战。美摄科技画面滤镜特效SDK,作为一款全面的视频处理工具,为企业提供了一种高效、灵活的视频处…

元宇宙:智慧城市建设的未来引擎与价值之源

在21世纪的技术大潮中,元宇宙的出现无疑是一场革命,其独特的概念与价值已经引发了全球范围内的关注。 作为新兴科技的前沿,元宇宙为智慧城市建设带来了无限的可能性和价值,有望成为未来城市发展的核心动力。 元宇宙,这…

虚拟线程探索与实践(JDK19)

优质博文:IT-BLOG-CN 一、简介 虚拟线程是轻量级线程,极大地减少了编写、维护和观察高吞吐量并发应用的工作量。虚拟线程是由JEP 425提出的预览功能,并在JDK 19中发布,JDK 21中最终确定虚拟线程,以下是根据开发者反馈…

JAVA实现向Word模板中插入Base64图片和数据信息

目录 需求一、准备模板文件二、引入Poi-tl、Apache POI依赖三、创建实体类(用于保存向Word中写入的数据)四、实现Service接口五、Controller层实现 需求 在服务端提前准备好Word模板文件,并在用户请求接口时服务端动态获取图片。数据等信息插…

【Week-P5】CNN运动鞋品牌识别

文章目录 一、环境配置二、准备数据三、搭建网络结构四、开始训练五、查看训练结果六、总结6.1 torch.optim.lr_scheduler.StepLR 等间隔动态调整6.2 lr_scheduler.LambdaLR 自定义学习率更新函数6.3 lr_scheduler.MultiStepLR 特定epoch中调整学习率6.4 本文四种学习率方法得到…

详细的说说mfc110u.dll丢失的解决方法分享,四种解决办法的详细步骤

在电脑运行过程中,有时会遇到各种各样的错误提示,比如“由于找不到mfc110u.dll,无法继续执行代码”,这不仅令人困扰,也影响了我们的工作和娱乐体验。如果你也在为mfc110u.dll缺失问题感到苦恼,那么你来对地…

Ubuntu重启后进入initramfs导致无法开机

今晚,我的电脑意外关机,重新开机后打开了虚拟机后出现initramfs,一直无法开机。该虚拟机使用的是 vm17,系统是ubuntu20, 解决方案 使用如下命令查看和识别磁盘、分区或文件系统的信息 在initramfs后面输入 fsck /dev/sdb4 ,即修复上面损坏的…

非线性最小二乘问题的数值方法 —— 狗腿法 Powell‘s Dog Leg Method (I - 原理与算法)

Title: 非线性最小二乘问题的数值方法 —— 狗腿法 Powell’s Dog Leg Method (I - 原理与算法) 文章目录 I. 前言II. 线搜索类型和信赖域类型1. 线搜索类型 —— 最速下降法2. 信赖域类型3. 柯西点 III. 狗腿法的原理1. 狗腿法的构建2. 狗腿法的优化说明3. 狗腿法的插值权重 I…

Spring Security 优化鉴权注解:自定义鉴权注解的崭新征程

文章目录 1. 引言2. Spring Security基础2.1 Spring Security概述2.2 PreAuthorize注解 3. 自定义鉴权注解的优势3.1 业务语义更明确3.2 参数化鉴权更灵活3.3 可维护性更好 4. 实现自定义鉴权注解4.1 创建自定义注解4.2 实现鉴权逻辑4.3 注册自定义注解和逻辑4.4 使用自定义注解…

去掉element-ui的el-table的所有边框+表头+背景颜色

实例: 1.去掉table表头(加上:show-header"false") <el-table:data"tableData":show-header"false"style"width: 100%"> </el-table> 2.去掉table所有边框 ::v-deep .el-table--border th.el-table__cell, ::v-deep .el…

.NetCore Flurl.Http 升级到4.0后 https 无法建立SSL连接

Flurl.Http-3.2.4 升级到 4.0.0 版本后&#xff0c;https请求异常&#xff1a;Call failed. The SSL connection could not be established. 如下图&#xff1a; Flurl.Http-3.2.4版本绕过https的代码&#xff0c;对于 Flurl.Http-4.0.0 版本来说方法不再适用&#xff0c;3.2.…

如何定义眼图测试模板

设计眼图模板时所需的参数列举如下&#xff1a; TCLK clock period&#xff0c;时钟周期&#xff1b;TSKEW the difference between the clock and data propagation time&#xff0c;时钟和数据之间的偏斜&#xff0c;默认为0&#xff1b;TJITTER clock data jitter (pea…

代码随想录 Leetcode459. 重复的子字符串(KMP算法)

题目&#xff1a; 代码&#xff08;首刷看解析 KMP算法 2024年1月18日&#xff09;&#xff1a; class Solution { public:void getNext(string& s,vector<int>& next) {int j 0;next[0] j;for (int i 1; i < s.size(); i) {while (j > 0 && s…

leetcode:1736. 替换隐藏数字得到的最晚时间(python3解法)

难度&#xff1a;简单 给你一个字符串 time &#xff0c;格式为 hh:mm&#xff08;小时&#xff1a;分钟&#xff09;&#xff0c;其中某几位数字被隐藏&#xff08;用 ? 表示&#xff09;。 有效的时间为 00:00 到 23:59 之间的所有时间&#xff0c;包括 00:00 和 23:59 。 …

【Qt】安装及环境搭建

概述&#xff1a;1. 搭建《QtCreator快速入门》一书中所使用的Qt版本qt6.2.3 文章目录 1 安装2 环境变量设置 1 安装 先下载下载器&#xff0c;然后在下载器中选择自己需要的版本下载并安装&#xff0c;有点像 LOL 下载器&#xff0c;先下个小的&#xff0c;然后再在这个下载器…

芯品荟 | 酒精测试仪市场调研报告

产品简介 酒精检测仪是一种可以测量人体酒精浓度的电子设备。 它可以通过呼气或血液等方式来检测酒精浓度&#xff0c;被广泛应用于交通安全、职业健康等领域。 酒精检测仪的工作原理&#xff1a; 1、酒精检测仪分为2种&#xff0c;基于化学传感器与基于光学传感器&#xff…

RDMA Scatter Gather List详解

1. 前言 在使用RDMA操作之前&#xff0c;我们需要了解一些RDMA API中的一些需要的值。其中在ibv_send_wr我们需要一个sg_list的数组&#xff0c;sg_list是用来存放ibv_sge元素&#xff0c;那么什么是SGL以及什么是sge呢&#xff1f;对于一个使用RDMA进行开发的程序员来说&#…

Docker(三)使用 Docker 镜像:从仓库获取镜像;管理本地主机上的镜像;介绍镜像实现的基本原理

作者主页&#xff1a; 正函数的个人主页 文章收录专栏&#xff1a; Docker 欢迎大家点赞 &#x1f44d; 收藏 ⭐ 加关注哦&#xff01; 使用 Docker 镜像 在之前的介绍中&#xff0c;我们知道镜像是 Docker 的三大组件之一。 Docker 运行容器前需要本地存在对应的镜像&#x…