【大模型】更强的 LLaMA2 来了，开源可商用、与 ChatGPT 齐平

news2026/2/14 4:59:07

【大模型】可商用且更强的 LLaMA2 来了

LLaMA2 简介
- 论文
- GitHub
- huggingface
- 模型列表
- 训练数据
- 训练信息
- 模型信息
许可证
参考

LLaMA2 简介

2023年7月19日：Meta 发布开源可商用模型 Llama 2。

Llama 2是一个预训练和微调的生成文本模型的集合，其规模从70亿到700亿个参数不等。

经过微调的LLMs称为Llama-2-Chat，针对对话用例进行了优化。Llama-2-Chat模型在我们测试的大多数基准测试中都优于开源聊天模型，在对有用性和安全性的人工评估中，与ChatGPT和PaLM等一些流行的封闭源代码模型不相上下。

LLaMA-2-chat 几乎是开源模型中唯一做了 RLHF 的模型。LLaMA-2 经过 5 轮 RLHF 后，在 Meta 自己的 reward 模型与 GPT-4 的评价下，都表现出了超过 ChatGPT 性能。

论文

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

GitHub

地址：https://github.com/facebookresearch/llama

huggingface

地址：https://huggingface.co/meta-llama

模型列表

在这里插入图片描述

Llama2-chat：
Llama2-chat-7B
Llama2-chat-13B
Llama2-chat-70B

其他模型请查看：https://huggingface.co/meta-llama

训练数据

在超过2万亿tokens数据集上训练。
微调数据包括公开可用的指令数据集，以及超过100万个新的人工注释示例。
预训练数据的截止日期为2022年9月

训练信息

所有模型都使用全局批量大小为4M tokens进行训练。
更大的700亿参数模型使用Grouped-Query Attention（GQA）来提高推理可扩展性。
训练时间为2023年1月至2023年7月。
是一个纯文本模型。
预训练过程中，在 A100-80GB 花费了33万GPU小时。

模型信息

在这里插入图片描述
上下文长度为 4K。

许可证

免费商用
需要注册申请

参考

1.https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
2.https://github.com/facebookresearch/llama

3.https://huggingface.co/meta-llama
4.Llama2-chat-7B
5.Llama2-chat-13B
6.Llama2-chat-70B

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/777359.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【大模型】更强的 LLaMA2 来了，开源可商用、与 ChatGPT 齐平

【大模型】可商用且更强的 LLaMA2 来了

LLaMA2 简介

论文

GitHub

huggingface

模型列表

训练数据

训练信息

模型信息

许可证

参考

相关文章

中间件安全-CVE漏洞复现-Weblogic+JBoss+GlassFish

自然语言处理：赋予AI理解和交流的能力

Visual Studio创建Web项目时候报错- 找不到“2.0.1“版本的程序包”解决方法

python与深度学习(三):ANN和fashion_mnist

(202307)wonderful-sql：环境搭建（ubuntu 22.04 + mysql 8.0 + workbench/dbeavar，免密码-不建议免哈）

Kubernetes中Pod的扩缩容介绍

java代码审计1之环境搭建

（全网最详细！）mysql、redis 、RabbitMQ只能本机访问，怎么改?

POC！VMWare RCE CVE-2023-20887

vue3+vue-router4：报错Uncaught (in promise) Error: Invalid navigation guard

PHP要怎么学--【思维导图知识范围】

C语言-分支语句和循环

pandas常用方法

Spring Cloud之Gateway网关应⽤

以高质量产业载体为底色，绘就珠海高新区产业发展新图景

17 数组动态初始化

日撸java三百行day77-80

深度学习模型量化、剪枝、压缩

CentOS5678 repo源阿里云/腾讯云开源镜像站 repo 地址

DuDuTalk ：做4G智能工牌领域标杆品牌，用语音智能构建完美沟通