技术速览|Meta Llama 2 下一代开源大型语言模型

news2024/11/25 4:00:31

AI 使用大型语言模型(LLM)来理解和生成自然语言。LLM 可以从大量文本中学习并创建有关各种主题的文本,并可以完成比如编写代码、生成歌词、总结文章等任务。但有些 LLM 相关课程成本高昂且封闭,而现有的开放课程数量十分有限。这就是 Meta 推出新的开源 LLM Llama 2 的原因。
 

Meta Llama 2 旨在与 OpenAI 的 ChatGPT 和 Google Bard 等其他著名语言模型对标,但又具有独特优势。在本文中,我们将聊聊 Llama 2 是什么、它的优势是什么、是如何开发的、以及如何开始上手使用。
 

什么是大型语言模型(LLM)?

大型语言模型(LLM)是一种人工神经网络,可以从大量文本数据中学习并生成各种主题的自然语言文本。LLM 接受的语料库包含来自不同来源的数十亿或数万亿单词,例如书籍、网站、社交媒体帖子、新闻文章等。LLM 可以执行各种自然语言处理(NLP)任务,例如文本分类、情感分析、问答、机器翻译、文本摘要、文本生成等。流行的 LLM 的一些例子包括 OpenAI 的 ChatGPT、Google 的 Bard、微软的 Turing-NLG、IBM 的 Project CodeNet 等。
 

LLM 基于一种称为自我关注的技术,该技术使他们能够捕获文本中的远程依赖性和上下文信息。自注意力是使用名为 Transformer 的模块实现的,该模块由多层编码器-解码器对组成。每一层都对输入文本应用自注意力,并生成更精致和相关的输出文本。
 

LLM 的规模是通过其参数的数量来衡量的。参数是确定神经网络如何处理输入并产生输出的数值,LLM 的参数越多,它就越复杂和强大。而更多的参数也意味着更多的计算资源和能耗。
 

如何开始使用 Llama 2?

如果您有兴趣将 Llama 2 用于您自己的项目或实验,可以从 Meta 网站[1] 下载模型,您需要填写下载表格并同意 Meta 的隐私政策。您还需要在计算机或设备上安装 PyTorch。
 


 

阅读技术概述和研究论文。这些文档将为您提供有关 Llama 的架构、训练、性能和评估的更多信息。您还将了解 LLM 的挑战和局限性以及如何解决这些挑战和局限性。
 

遵循官方使用指南并加入开放创新社区。这些资源将帮助您以安全、合规、合法地方式使用 Llama 2,并将您和与您有共同兴趣和目标的其他用户和开发人员联系起来。
 

Llama 2 的优势

Llama 2 是 Meta 的下一代开源大语言模型。它是一系列经过预训练和微调的模型,参数范围从 70 亿到 700 亿个。Meta Llama 2 具有两大优势,使其从其他开源 LLM 中脱颖而出。
 

Llama 2 可免费用于研究和商业用途

Llama 2 的主要优点之一是它可以免费用于研究和商业用途。与其前身 Llama 拥有非商业许可证并被泄露到 torrent 网站不同,Meta Llama 2 拥有商业许可证,允许任何人将其集成到他们的产品和服务中。这也表示 Llama 2 可用于多种用途,例如构建聊天机器人、生成内容、创建语音助手等。Meta Llama 2 还可以针对特定领域和任务进行定制和微调,例如医疗保健、教育、金融等。
 

当然 Meta Llama 2 的使用也存在一些限制。例如,每月活跃用户超过 7 亿的潜在被许可人必须向 Meta 请求特别许可才能使用它。此外,Meta Llama 2 用户必须遵循 Meta 的负责任的使用指南并尊重他人的隐私和权利。
 

Llama 2 拥有一系列不同的模型

Llama 2 的另一个优势是它提供了一系列具有不同大小和功能的模型。根据用户的需求和资源,他们可以选择以下型号:
 


 

  • Llama-7B:最小的模型,拥有 70 亿个参数。适用于资源匮乏的设备和应用程序。

  • Llama-14B:具有 140 亿个参数的中型模型。适用于通用应用程序和任务。

  • Llama-28B:具有 280 亿个参数的大型模型。适用于高性能应用和任务。

  • Llama-56B:一个非常大的模型,拥有 560 亿个参数。适用于需要更多复杂性和多样性的高级应用程序和任务。

  • Llama-70B:最大的模型,拥有 700 亿个参数。适用于需要最高质量和性能的最先进的应用和任务。
     

所有这些模型都基于 2 万亿个 token 的在线数据进行了预训练,并且具有 4,096 个 token 的上下文窗口。此外,Meta 还提供了一个名为 Llama-2-chat 的微调模型,该模型针对会话应用程序进行优化。Llama-2-chat 经过超过 100 万条人工注释的训练,可以生成流畅且相对准确的响应。
 

Llama 2 是如何开发的?

Llama 2 由 Meta(前为Facebook)的研究部门 Meta AI 开发。Meta AI 致力于通过开放创新和协作推进人工智能领域的发展。Meta AI 拥有世界一流的研究人员和工程师团队,他们致力于人工智能的各个方面,如计算机视觉、自然语言处理、语音识别等。
 

Llama 2 建立在 Meta 之前的开源大型语言模型 Llama 之上,Llama 于今年 2 月发布。Llama 使用 Meta 的 PyTorch 框架在公开可用的在线数据源上进行了预训练。然而,Llama 拥有非商业许可证,仅适用于具有一定资格的学者。很快 Llama 就被泄露到网上并在人工智能社区广泛传播。许多爱好者和开发人员使用 Llama 为各种目的创建自己的微调模型,例如用于聊天机器人的 Alpaca、用于代码生成的 Camel、用于文本摘要的 Vicuna 等。
 

因此 Meta 决定采用这种开放式创新方法,并发布了带有商业许可证的 Llama 2,允许任何人将其用于研究和商业目的。Llama 2 使用 2 万亿个token在线数据进行预训练,是 Llama 的两倍。Meta Llama 2 还具有更丰富的上下文窗口,包含 4,096 个标记,是 Llama 上下文窗口大小的两倍。
 

Meta Llama 2 对超过 100 万条人工注释进行了微调,这些注释是从各种来源收集的,例如公开可用的指令数据集和 Meta 自己的众包平台。经过微调的模型 Llama-2-chat 针对对话应用程序进行了优化,可以生成流畅且更为准确的响应。
 

关于 Llama 2 的高频问题

Q:Llama 和 Llama 2 有什么区别?

A:Llama 是 Meta 开源大语言模型的第一个版本,于今年2月发布。Llama 使用 1 万亿个 token 的在线数据进行了预训练,并且有一个包含 2,048 个 token 的上下文窗口。Meta Llama 2 是 Meta 的下一代开源大语言模型,于今年 7 月发布。Meta Llama 2 使用 2 万亿个 token 在线数据进行了预训练,上下文窗口包含 4,096 个 token。
 

Q:如何针对我自己的领域或任务微调 Llama 2?

A:您可以使用 Meta 的 PyTorch 框架并遵循技术概述中的说明,针对您自己的领域或任务微调 Meta Llama 2。您将需要拥有与您的领域或任务相关的自己的文本数据集。
 

Q:Llama 2 面临哪些挑战和局限性?

A:Meta Llama 2 这样的 LLM 依旧面临一些挑战和限制。它们包括数据质量和偏见、计算成本和环境影响以及道德和社会影响。这些可能会影响LLM生成的文本及其在社会中使用的方式。
 

Q:如何以合法、合规的方式使用 Llama 2?

A:要以合法并合规的方式使用 Meta Llama 2(Meta 的开源大语言模型),您应该遵循 Meta 的官方使用指南。它提供了在您的产品中使用 LLM 的一些原则和最佳实践。其中包括尊重人的尊严和权利、透明和负责以及促进多样性和包容性。
 

结 论

Llama 2 是 Meta 的下一代开源大语言模型。它是一系列经过预训练和微调的模型,参数范围从 70 亿到 700 亿个。Meta Llama 2 可免费用于研究和商业用途,拥有一系列不同大小和功能的模型,并且在许多基准测试中优于其他开源 LLM。
 

Meta Llama 2 是一款功能强大且多功能的工具,可以帮助您创建令人惊叹的自然语言应用程序和体验。无论您是想构建聊天机器人、生成内容、创建语音助手还是其他任何东西,Llama 2 都可以帮助实现。感兴趣的伙伴不妨上手试试。
 

参考链接
原文:https://www.cloudbooklet.com/meta-llama-2-open-source-llm/
[1]. https://ai.meta.com/resources/models-and-libraries/llama-downloads/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/785370.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

游戏引擎UE如何革新影视行业?创意云全面支持UE云渲染

虚幻引擎UE(Unreal Engine)作为一款“殿堂级”的游戏引擎,占据了全球80%的商用游戏引擎市场,但如果仅仅将其当做游戏开发的工具,显然是低估了它的能力。比如迪士尼出品的电视剧《曼达洛人》、电影《狮子王》等等都使用…

Server - 调用 K8S 集群 GPU 环境运行算法脚本

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131899662 Kubeflow 是基于 Kubernetes 的机器学习工具包,提供了一套技术栈,包含了很多组件,用于支持…

魔功心法-枚举篇

什么是枚举 枚:量词。一般用于较小的片状物,相当于“个”。 举:提出:列举。举一反三。举个例子。 所以,枚举就是一个个列举出来 枚举的作用 魔功的作用,就不过多描述了,主打的就是一个优雅。…

将AWS S3大文件文件上传相关的API集成为js文件,功能包括 多文件并行上传、文件分片上传、断点续传、文件分片合成、上传暂停、取消上传、文件上传进度条显示

地址 https://github.com/gk-1213/easy-s3/tree/main easy-s3 将AWS S3大文件文件上传相关的API集成为js文件,功能包括多文件并行上传、文件分片上传、断点续传、文件分片合成、上传暂停、取消上传、文件上传进度条显示。 暂时不包括文件分片下载相关功能&#…

网工实操基础学习23.07.05

1.交换机,路由器 交换机的作用是链接同一个网络下的所有设备,如果有无线设备加入,需要添加AP(无线接入点)设备在交换机层次上 路由器的作用是将不同网络下的设备链接 2.IP地址 划分网段:网络位、网段、…

C++第三方开发库matplotlib-cpp

Matplotlib-cpp是一个用于在C中绘制图表的开源库。它提供了与Python的Matplotlib库类似的功能,使得在C环境下进行数据可视化变得更加便捷。基于Matplotlib-cpp,我们可以使用各种绘图函数和样式选项来创建各种类型的图表,包括折线图、散点图、…

单片机第一季:零基础11——实时时钟DS1302

目录 1,DS1302 时钟芯片介绍 2,BCD码介绍 3,涉及到的寄存器 3.1,控制寄存器 3.2,日历/时钟寄存器 3.3,DS1302 的读写时序 4,相关代码 这一章我们来学习DS1302 时钟芯片&#xff0c…

数据结构栈和队列

3.栈和队列 3.1栈和队列的定义和特点 栈和队列是两种常用的、重要的数据结构栈和队列是限定插入和删除只能在表的 “ 端点 ”进行的线性表栈和队列是线性表的子集(是插入和删除位置受限的线性表) 栈的应用: ​ 由于栈的操作具有后进先出的…

国内疫情地图和省级疫情地图

基础地图演示 from pyecharts.charts import Mapfrom pyecharts.options import VisualMapOpts map Map() data [ ("北京", 99), ("上海", 199), ("湖南", 299), ("台湾", 199), ("安徽", 299), ("广州", 399…

干货满满-运营校园跑腿小程序

校园跑腿是指在校园内提供代办、送餐、购物等服务的一种形式。学生可以通过跑腿服务解决一些日常生活中的繁琐事务,节省时间和精力。在校园跑腿小程序运营中,你可以尝试以下方法进行运营管理: (1)注册或加入相关的校园…

fdbus和proto编译

1. 下载protobuf和FDBUS 1.下载 FDBUS需要用到protobuf,所以需要提前安装好protobuf。 protobuf下载地址 https://gitee.com/it-monkey/protocolbuffers/ fdbus下载地址 https://gitee.com/jeremyczhen/fdbus 2. Windows编译 生成vs工程 打开CMake&#xff…

(vue)vue项目中引入外部字体

(vue)vue项目中引入外部字体 效果: 第一步 放置字体包,在assets下创建一个fonts文件夹,放入下载的字体文件 第二步 创建一个font.css文件用于定义这个字体包的名字 第三步 在App.vue的css中将这个css文件引入 第四步 页面使用 font-famil…

NumPy 专业人士应该掌握的 45 个技能

一、说明 NumPy(或Numeric Python)是每个数据科学和机器学习项目的核心。 整个数据驱动的生态系统在某种程度上依赖于NumPy及其核心功能。这使它成为 Python 有史以来最重要和改变游戏规则的库之一。 鉴于NumPy由于其无与伦比的潜力而在工业界和学术界具…

java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法

文章目录 一、记录文件相关操作方法二、代码1.读取路径返回List\<File>2.读取路径返回List\<String>3.删除文件夹4.删除文件 一、记录文件相关操作方法 二、代码 1.读取路径返回List<File> import org.slf4j.LoggerFactory; import org.slf4j.Logger;impo…

【学会动态规划】按摩师(11)

目录 动态规划怎么学&#xff1f; 1. 题目解析 2. 算法原理 1. 状态表示 2. 状态转移方程 3. 初始化 4. 填表顺序 5. 返回值 3. 代码编写 写在最后&#xff1a; 动态规划怎么学&#xff1f; 学习一个算法没有捷径&#xff0c;更何况是学习动态规划&#xff0c; 跟我…

es通过rest接口_search、_delete_by_query查询与删除数据

1、rest接口查询数据 rest查询: http://localhost:9200/index_name/_search 查询表达式&#xff1a; {"query": {"wildcard": {"accountID": {"value": "v*"}}} }postman请求截图&#xff1a; 2、使用Rest接口删除数据 …

基于Lucene实现校园搜索引擎——太强搜索

完整资料进入【数字空间】查看——搜索"writebug" 实验环境 win10 一、实验内容 综合运用搜索引擎体系结构和核心算法方面的知识&#xff0c;基于开源资源搭建搜索引擎&#xff0c;具体包括如下几点&#xff1a; 抓取清华校园网内绝大部分资源&#xff0c;并且进行…

【NLP】温和解读:transformer的核心思想

变压器模型及其关键组件的概述。 一、介绍 在这篇博文中&#xff0c;我将讨论本世纪最具革命性的论文“注意力是你所需要的一切”&#xff08;Vaswani et al.&#xff09;。首先&#xff0c;我将介绍自我注意机制&#xff0c;然后介绍变形金刚的架构细节。在之前的博客文章《从…

【数据分析 最火 全集干货】Anaconda的安装及使用

关于我的专栏&#xff1a; 接下来会有许多关于“数据分析”的文章哦&#xff0c;记得看哦&#xff01;&#xff01;&#xff01; Python最详细最全面基础合集_adaptation_T_C的博客-CSDN博客 有兴趣&#xff0c;需要 的小伙伴可以免费订阅哦&#xff01;&#xff01;&#x…

阿里 P8 架构师 20 年经验!总结成微服务设计企业架构转型之道

前言 本文涉及两个方面的知识体系&#xff0c;即企业架构知识体系和软件架构知识体系。 企业架构和软件架构虽然都与 IT 相关&#xff0c;但其知识体系是完全不同的两个领域。一般而言&#xff0c;搞企业架构的人士不明白软件架构的细节和实现&#xff0c;而从事软件架构的架…