【LLM】LLaMA简介:一个650亿参数的基础大型语言模型

news2024/9/21 11:15:38

LLaMA简介:一个650亿参数的基础大型语言模型

  • Paper
  • Setup
  • 其他资料

作为 Meta 对开放科学承诺的一部分,今天我们将公开发布 LLaMA (大型语言模型 Meta AI) ,这是一个最先进的大型语言基础模型,旨在帮助研究人员推进他们在人工智能这一子领域的工作。更小,更高性能的模型,例如 LLaMA,使得研究社区中没有大量基础设施的其他人能够研究这些模型,进一步民主化这个重要的,快速变化的领域的访问。

在大型语言模型空间中,训练像LLaMA这样的较小基础模型是可取的,因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新的用例。基础模型在大量未标记的数据上进行训练,这使它们非常适合于各种任务的微调。我们正在提供多种尺寸的LLaMA(7B、13B、33B和65B参数),并共享LLaMA模型卡,详细说明我们如何根据负责任的人工智能实践方法构建模型。

在过去的一年中,大型语言模型(具有数十亿个参数的自然语言处理(NLP)系统)显示出了新的功能来生成创意文本,求解数学定理,预测蛋白质结构,回答阅读理解的问题等。它们是AI可以向数十亿人提供的巨大潜在利益的最明显案例之一。

即使在大型语言模型中的所有最新进步中,对它们的全面研究访问仍然有限,因为训练和运行如此大型模型所需的资源。这种限制的访问具有有限的研究人员了解这些大语言模型如何以及为何工作的能力,阻碍了改善其稳健性和减轻已知问题的努力的进展,例如偏见,有害信息以及产生错误信息的潜力。

较小的模型可以训练更多的tokens(即单词片段) ,因此更容易针对特定的潜在产品用例进行再训练和微调。我们对 LLaMA 65B 和 LLaMA 33B 进行了1.4万亿tokens的训练。我们最小的模型 LLaMA 7B 是在一万亿tokens上训练的

与其他大型语言模型一样,**LLaMA的工作原理是将一系列单词作为输入,并预测下一个单词以递归生成文本。**为了训练我们的模型,我们从20种使用者最多的语言中选择了文本,重点是那些使用拉丁字母和西里尔字母的语言。

还有更多的研究需要做,以解决大型语言模型中存在偏见、有毒评论和幻觉的风险。与其他模型一样,LLaMA也面临这些挑战。作为一个基础模型,LLaMA被设计为通用的,可以应用于许多不同的用例,而不是为特定任务设计的微调模型。通过共享LLaMA的代码,其他研究人员可以更容易地测试在大型语言模型中限制或消除这些问题的新方法。我们还在论文中提供了一组关于评估模型偏差和毒性的基准的评估,以显示模型的局限性,并支持这一关键领域的进一步研究。

为了保持完整性和防止滥用,我们在非商业许可证下发布了我们的模型,重点是研究用例。学术研究人员将根据具体情况使用该模型;与政府、民间社会和学术界组织有关联的机构;以及世界各地的工业研究实验室。有兴趣申请访问权限的人可以在我们的研究论文中找到该应用程序的链接。

我们认为,整个人工智能社区——学术研究人员、民间社会、政策制定者和行业——必须共同努力,围绕负责任的人工智能,特别是负责任的大型语言模型,制定明确的指导方针。我们期待着看到社区可以使用LLaMA学习并最终建立什么。

Paper

LLaMA
摘要:我们介绍 LLaMA,一个从7B 到65B 参数的基础语言模型集合。我们在数以万亿计的令牌上训练我们的模型,并且展示了完全使用公开可用的数据集训练最先进的模型是可能的,而不需要求助于专有的和不可访问的数据集。特别是,LLaMA-13B 在大多数基准上优于 GPT-3(175B) ,而且 LLaMA-65B 与最好的机型 Chinchilla-70B 和 PaLM-540B 相比具有竞争力。我们把所有的模型发布给研究团体。

GitHub地址:https://github.com/facebookresearch/llama

Setup

Inference

其他资料

Apply for access to LLaMA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/462679.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

刘宇:如何打造快、稳、易、专的多元数据库运行平台

导语 4月8日下午,为期两天的第十二届数据技术嘉年华(DTC 2023)在北京新云南皇冠假日酒店圆满落下帷幕。大会以“开源融合数字化——引领数据技术发展,释放数据要素价值”为主题,汇聚产学研各界精英到场交流。云和恩墨作…

直面GPT-4的缺陷和风险,OpenAI提出多种安全应对措施

深入研究OpenAI官方团队发布的长达99页的技术报告,我们发现在GPT-4光鲜亮丽功能的背后,还隐藏了OpenAI团队付出的的汗水和努力,尤其是在缓解GPT模型自身缺陷和模型安全落地方面。 报告链接: https://arxiv.org/abs/2303.08774 一、…

UEditorPlus v3.0.0 样式CSS变量,支持Mind代码类型,若干问题修复

UEditor是由百度开发的所见即所得的开源富文本编辑器,基于MIT开源协议,该富文本编辑器帮助不少网站开发者解决富文本编辑器的难点。 UEditorPlus 是有 ModStart 团队基于 UEditor 二次开发的富文本编辑器,主要做了样式的定制,更符…

kafka单节点快速搭建

1.搭建使用centos7主机,关闭防火墙和selinux服务 2.创建kafka存放目录 mkdir /etc/kafka 3.从kafka官网下载安装包 我这里下载了3.3.1版本的kafka,放到kafka目录中 下载地址:Apache Kafka 4.解压安装包并更改名称 tar -zxvf /etc/kaf…

Three.js教程:顶点索引复用顶点数据

推荐:将 NSDT场景编辑器 加入你3D工具链 其他工具系列: NSDT简石数字孪生 顶点索引复用顶点数据 通过几何体BufferGeometry的顶点索引属性BufferGeometry.index可以设置几何体顶点索引数据,如果你有WebGL基础很容易理解顶点索引的概念&#…

如何建立Linux与git的连接?

文章目录 建立连接三板斧: 本文以Xshell为案例进行与git的连接! 建立连接三板斧: add , commit ,push Linux与git远程连接的方法: 1.设置全局的用户名和邮箱 git config – global user.name “你的用户名” git config – glo…

JMeter学习(一)工具简单介绍

一、JMeter 介绍 Apache JMeter是100%纯JAVA桌面应用程序,被设计为用于测试客户端/服务端结构的软件(例如web应用程序)。它可以用来测试静态和动态资源的性能,例如:静态文件,Java Servlet,CGI Scripts,Java Object,数据库和FTP服务…

gpt国内怎么用-gpt国内版免费下载使用

gpt免费使用 GPT (Generative Pre-trained Transformer) 是一种非常强大的语言模型,它是由 OpenAI 开发的,用于自然语言处理和生成。GPT 可以生成高质量、流畅、自然的文本,帮助用户实现更加高效的写作和沟通。现在,GPT 免费使用…

Cookie客户端会话技术

1. Cookie基本使用 过程: 当浏览器发出请求1给服务器端A时,A Servlet就会创建一个cookie对象数据,A在做响应时,就会发送给浏览器,浏览器就把cookie保存在内存之中; 当浏览器在同一次会话中,再次…

Spring第三方资源配置管理

Spring第三方资源配置管理 1. 管理DataSource连接池对象1.1 管理Druid连接池【重点】1.2 管理c3p0连接池 2. 加载properties属性文件【重点】2.1 基本用法2.2 配置不加载系统属性2.3 加载properties文件写法 说明:以管理DataSource连接池对象为例讲解第三方资源配置…

RocketMQ 5.1 版本 NameServer 路由管理

文章目录 1. 路由管理核心组件介绍2. RouteInfoManager 路由表3. 路由管理3.1 注册 Broker3.2 注销 Broker3.3 拼凑 TopicRouteData 此文章基于 RocketMQ 5.1 版本进行分析,与 4.x 版本相比此文章分析的部分源码有很大的区别 1. 路由管理核心组件介绍 路由管理是指…

又一次503 service unavailable处理

出现了:503 service unavailable 1)查看系统日志 通过事件查看器,查看iis的日志,如下: 在错误信息中提示是 应用程序池提供服务的进程中出现错误。 其他警告也可通过日志目录查看 C:\inetpub\ 出现上述问题的可能是&#xf…

树形结构——JAVA实现

1、树定义和基本术语 节点 package com.young.tree;/*** <p>* Title:树节点&#xff1a;二叉链表结构* </p>** Author: yangyongbing* Date: 2023-04-18 13:25* version: v1.0*/ public class Node<T> {public Node<T> lChild;private T data;public…

CASP15 蛋白质结构域 Domain 的定义和分类

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://blog.csdn.net/caroline_wendy/article/details/130379447 在CASP中&#xff0c;蛋白质结构域(Domain)的类别&#xff0c;包括 FM、FM/TBM、TBM-easy、TBM-hard、not evaluated 等5个类…

25从零开始学Java之数组扩容与数组拷贝的实现过程与原理分析

作者&#xff1a;孙玉昌&#xff0c;昵称【一一哥】&#xff0c;另外【壹壹哥】也是我哦 千锋教育高级教研员、CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者 前言 在上一篇文章中&#xff0c;壹哥给大家讲解了数组的创建、初始化及遍历方式&#xff0c;这些是我们学…

Cookies和Session案例-注册

1. 注册功能改进 1.1 service 将之前的注册案例的代码进行优化&#xff0c;将获取sqlsession工厂对象、获取sqlsession、获取mapper等操作从servlet中分离出来转变为三层架构的形式 在service目录下创建UserService public class UserService {SqlSessionFactory sqlSessionFa…

办公室组网

1.办公网络组网中,汇聚交换机和接入交换机你会做哪些配置? 接入交换机上配置: (1)VLAN配置:由题意得办公网络中有两个部门,使用VLAN技术将每个部门划入一个局域网中,如部门1属于VLAN 10,部门2属于VLAN20.该网络中还需要额外创建一个VLAN用于管理网络,如VLAN30。在接入…

一文了解国外AIGC头部产品

AIGC是指通过人工智能技术生成的内容&#xff0c;包括文字、图片、音频和视频等。AIGC技术可以基于大量的数据和算法&#xff0c;自动地生成各种类型的内容&#xff0c;可以用于新闻报道、广告宣传、文学创作、游戏设计等各个领域。AIGC技术的优点在于可以大大提高内容生产的效…

GD32F303RCT6开发笔记(一)—— macos环境搭建

macOS vscodegccpyocd环境搭建 1、vscode/arm-none-eabi-/pyocd 安装可百度。 2、pyocd 安装完成后&#xff0c;连接st-link 输入命令后显示如下&#xff0c;说明连接成功。 3、输入命令 pyocd pack find GD32F303RC4、如果没有安装GD32F303RC包 使用命令安装 pyocd pack …

【Vue 基础】vue-cli初始化项目及相关说明

目录 1. 创建项目 2. 项目文件介绍 3. 项目的其它配置 3.1 项目运行时&#xff0c;让浏览器自动打开 3.2 关闭eslint校验功能 3.3 src文件夹简写方法 1. 创建项目 vue create 项目名 2. 项目文件介绍 创建好的项目中包含如下文件&#xff1a; &#xff08;1&#xff09…