又一新闻,Meta研发了超越chatGPT的新平台LLAMA

news2024/11/14 15:18:34

一、Meta 全新大语言模型 LLaMA 正通过种子公开发放

2 月 24 日,Meta 公司发布了新的大模型系列 —— LLaMA(Large Language Model Meta AI)。Meta 宣称,LLaMA 规模仅为竞争对手 ChatGPT 的“十分之一”,但性能却优于 OpenAI 的 GPT-3 模型。

并且,提到了“通过使用torrent更高效地分发,节省带宽”,github截图:

GitHub 链接:https://github.com/facebookresearch/llama/pull/73/files

对此,下面发表了不同的意见:

二、超越 ChatGPT,LLaMA 强在哪里?

文中指出,这个LLaMA名字的由来?反正Large Language Model Meta Artificial Intelligence缩写为LLMMAI,有点太接近LMAO了。我们可以将 LLMMAI 制作成该主题的各种变体,甚至有相当数量的咒骂。Large Language AI Model 会缩写为 LLAIM,这很有趣——“是的,我们正在使用来自 Facebook 的 LLAIM 基础模型”——显然是威尔士盖尔语,但你可以看到为什么 Meta Platforms 没有使用这些名称它的基础模型。“Large Language As Meta Ascertains”会让 LLAMA 成为现实,但它并不十分成功。这是一个想法:嘿元平台,你实际上可以使用人工智能想出一个更好的名字来打 LLAMA 缩写——不允许小写的“A”,那是作弊——或者更好的是,应用一些好的 ol' 人类智慧,想出一个允许双关式缩写的东西,但仍然很好感觉。

还指出,LLaMA 模型是根据世界上二十种最流行的拉丁语和西里尔字母表语言的文本进行训练的。论文LLaMA:Open and Efficient Foundation Language Models描述了该模型以及它与 GPT、Gopher、Chinchilla 和 PaLM 的比较。后一种模型利用了广泛的公共数据,但也有非公开可用或未记录的文本数据。LLaMA 专门针对公开可用的数据集进行培训,因此与开源兼容——尽管它本身尚未开源。

LLaMA 在某种意义上是对Training Compute-Optimal Large Language Models论文的直接反应,该论文于 2022 年 3 月发表,描述了 Chinchilla 模型及其竞争对手。并且在模型大小、计算预算、令牌数量、训练时间、推理延迟和性能方面进行了对比。

LLaMA 模型已使用 67 亿、130 亿、320 亿和 652 亿个参数进行训练,其中两个较小的参数使用 1 万亿个代币,两个较大的参数使用 1.4 万亿个代币。Meta Platforms 在 2,048 个 Nvidia“Ampere”A100 GPU 加速器和 80 GB HBM2e 内存上使用这 1.4 万亿个令牌测试了最大的 LLaMA-65.2B 模型,并且花费了 21 天(以每个 GPU 每秒 380 个令牌的速度)训练模型。这不是特别快。然而,Meta AI 研究人员表示,LLaMA-13B 模型“在大多数基准测试中都优于 GPT-3,尽管它的体积小了 1`09 倍。” 难点在于:“我们相信该模型将有助于使 LLM 的访问和研究民主化,因为它可以在单个 GPU 上运行。

还有许多性能测试的对比,下面图展示了各种模型在“常识推理”任务上的零样本表现:

Meta Platforms 显示了 LLaMA 在人文、科学、技术和数学、社会科学以及其他领域的多项选择测试中的测试结果。看看这张表:

下面更有趣的是,因为它显示了 LLaMA 在不同参数计数下如何在各种常识推理和问答基准上与 Chinchilla 模型相比较:

如您所见,LLaMA-33B 和 LLaMA-65B 可以与 Chinchilla-70B 抗衡,当代币数量达到 1 万亿甚至更多时超过它。

参考链接:

https://www.nextplatform.com/2023/02/28/move-over-chatgpt-meta-platforms-llama-makes-some-drama/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/391446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Win10安装MySQL5.7.22 解压缩版(手动配置)方法

1.下载地址:https://dev.mysql.com/downloads/mysql/5.7.html#downloads 直接点击下载项 下载后: 2.可以把解压的内容随便放到一个目录,我的是如下目录(放到C盘的话,可能在修改ini文件时涉及权限问 题,之后…

第13章 二叉树模型及其扩展

这学期会时不时更新一下伊曼纽尔德曼(Emanuel Derman) 教授与迈克尔B.米勒(Michael B. Miller)的《The Volatility Smile》这本书,本意是协助导师课程需要,发在这里有意的朋友们可以学习一下,思…

lattice

Chinese NER Using Lattice LSTM 阅读笔记_Ono_online的博客-CSDN博客 【NER-1】-2018 ACL Lattice-LSTM_latticelstm代码_应有光的博客-CSDN博客 lattice model(结合上面两个博客来看) 18分钟彻底搞懂LSTM网络原理,NLP,深度学习,自然语言处理_哔哩哔哩_bilibili 如何从RNN起…

无代码时代洪流,高灵活,所见即所得

发布的《2022年中国低代码/零代码行业研究报告》表明,在最近的一项调查中,超过90%的企业用户都希望能够使自己的产品开发更加灵活和有效,并且希望能够通过减少开发费用来优化其投入产出比。从众多研究机构的正面评价来看&#xff…

react-swipeable-views轮播图实现下方的切换点控制组件

本文是react通过react-swipeable-views创建公共轮播图组件的续文 上一文 我们创建了这样的一个轮播图组件 但我们已经看到的轮播图 下面都会有小点 展示当前所在的位置 但react-swipeable-views 并没有直接提供 我们需要自己去编写这个组件 我们在components下的 rotationCh…

如何用R语言在生物群落生态学中的数据统计分析?

R 语言作的开源、自由、免费等特点使其广泛应用于生物群落数据统计分析。生物群落数据多样而复杂,涉及众多统计分析方法。本课程以生物群落数据分析中的最常用的统计方法回归和混合效应模型、多元统计分析技术及结构方程等数量分析方法为主线,通过多个来…

文件变成chk如何恢复正常

许多人不知道chk文件是什么?其实它是用户在使用“磁盘碎片整理程序”整理硬盘后所产生的“丢失簇的恢复文件”,而在u盘、内存卡等移动设备读取数据过程中,由于断电或强制拔出也容易产生大量的chk文件。那么文件变成chk如何恢复正常呢&#xf…

A/B测试实践全总结

一:基本概念网站设计中,我们经常会面临多个设计方案的选择,比如某个按钮是用红色还是用蓝色,是放左边还是放右边。传统的解决方法通常是集体讨论表决,或者由某位专家或领导来拍板。虽然传统解决办法多数情况下也是有效的,但A/B 测试(A/B Testing)可能是解决这类问题的一个更好的…

小型双轮差速底盘双灰度循迹功能的实现

1. 功能说明 在机器人车体上安装2个 灰度传感器 ,实现机器人按照下图所指定的路线进行导航运动,来模拟仓库物流机器人按指定路线行进的工作过程。 2. 使用样机 本实验使用的样机为R023e样机。 3. 功能实现 3.1 电子硬件 在这个示例中,我们采…

[Linux入门篇]一篇博客解决C/C++/Linux System Call文件操作接口的使用

目录 0.前言 1.C / C ->文件操作 1.1 C语言文件操作 1.1.1 C语言文件打开/关闭/写入 1.1.2 C语言文件的追加操作 1.1.3 C语言文件的读取 1.2 C语言文件操作 1.2.1 C文件打开 / 关闭 / 写入 1.2.2 C文件读取 1.2.3 文件追加 2.三个默认输入输出流 2.1 C语言中的三…

#gStore-weekly | gBuilder功能详解之项目管理

1. gBuilder介绍 我们知道知识图谱整个生命周期分为构建、存储管理与应用三个阶段。其中我们之前介绍的图数据库gStore对应解决的是知识图谱的存储与管理这个阶段问题。实际上知识图谱项目中大部分时间都花在知识图谱构建阶段,虽然知识图谱构建不直接体现价值&…

Hermite插值及其Julia实现

文章目录基本原理算法实现无论是Newton插值还是Lagrange插值,都只能在数值本身上满足插值函数与数据节点的重合,Hermite插值则要求其导数值相等。 基本原理 设在节点a⩽x0⩽x1⩽…⩽xn⩽ba\leqslant x_0\leqslant x_1 \leqslant\ldots\leqslant x_n\le…

ESP32使用TCP HTTP访问API接口JSON解析获取数据

ESP32使用TCP HTTP访问API接口JSON解析获取数据API接口代码解析获取时间代码烧录效果总结API接口 单片机常用的API接口基本都是返回的一串JSON格式的数据,这里以ESP32联网获取时间信息作为获取API数据的示例,以便后续移植使用。 很多功能性的API接…

UML-活动图以及PlantUML绘制

介绍 活动图(英语:activity diagram)是工作流的图形化表示。活动图主要由活动和动作构成,也可以支持分支选择、迭代、并行。在 UML 中,活动图主要用于为计算性和组织性过程(即工作流)建模&…

PaddlePaddle本地环境安装(windows11系统)

写在前面: 这里是关于win11安装PaddlePaddle的步骤和方法,建议参考官方的方法。截止2023年3月份,PaddlePaddle的版本是2.4.2。 官方参考:飞桨PaddlePaddle快速安装使用方法 建议使用Anaconda安装 ,关于Anaconda创建环境的可以借鉴:深度学习Anaconda环境搭建(比较全面)…

Exposure X7胶片滤镜调色插件免费版下载

ps是我们为图片进行调色的一种必要手法,我们可以通过添加滤镜、使用曲线、调整色相、饱和度等ps手法来对图片加以修饰。下面这篇文章就来为大家介绍一下ps调色方法主要有,ps调色插件怎么用的相关知识。 Exposure X7是一款特别好用的胶片滤镜模拟软件&am…

ESP32设备驱动-MicroSD Card驱动

MicroSD Card驱动 1、SDCard介绍 SD卡是Secure Digital Card卡的简称,直译成汉语就是“安全数字卡”,是由日本松下公司、东芝公司和美国SANDISK公司共同开发研制的全新的存储卡产品。SD存储卡是一个完全开放的标准(系统),多用于MP3、数码摄像机、数码相机、电子图书、AV器…

代码看不懂?ChatGPT 帮你解释,详细到爆!

偷个懒,用ChatGPT 帮我写段生物信息代码如果 ChatGPT 给出的的代码不太完善,如何请他一步步改好?网上看到一段代码,不知道是什么含义?输入 ChatGPT 帮我们解释下。生信宝典 1: 下面是一段 Linux 代码,请帮…

开学季平价好用电容笔有哪些?ipadpro触控笔推荐

众所周知,苹果原装的Pencil的售价由于比较高,所以很多用户都无法入手。那么,市场上会不会有一款价格上只有苹果Pencil五分之一左右、但功能几乎相同的电容笔?事实上,确实存在。国内的平替电容笔,不管是压感…

二点回调测买 源码

如图所示,两点回调测买点的效果图,这是我们常见的一种预测买点计算方法。 现将源码公布如下: DRAWKLINE(H,O,L,C); N:13; A1:REF(HIGH,N)HHV(HIGH,2*N1); B1:FILTER(A1,N); C1:BACKSET(B1,N1); D1:FILTER(C1,N); A2:REF(LOW,N)LLV(LOW,2*N1…