2023年发布的25个开源大型语言模型总结

news2024/12/23 5:24:49

大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。

今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以尝试LLM,并为它们开发新的应用程序。

使用开源llm有很多好处。首先它们通常比专业的LLM更价便宜。并且它们更加透明,这意味着研究人员可以研究它们是如何工作的以及它们是如何做出决定的。最主要的是它们更加灵活,可以针对不同的任务进行定制。

本文总结了当前可用的开源llm的全部(几乎全部)列表,以及有关其许可选项和源代码存储库的信息,希望对你有所帮助

SAIL 7B

基于LLaMa的搜索增强

参数: 7B

许可类型: GPL-3.0

发布日期: 2023年5月

论文: SAIL — Search Augmented Instruction Learning

Guanaco

采用高效微调方法QLoRA发布的LLM模型

参数: 65B

许可类型: MIT

发布日期: 2023年5月

论文: QLoRA — Efficient Finetuning of Quantized LLMs

RMKV

与transformer的LLM性能相当的RNN模型

参数: 100M–14B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: Scaling RNN to 1.5B and Reach Transformer LM Performance

MPT-7B

MosaicML的基础系列模型

参数: 7B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs

OpenLLaMa

在RedPajama数据集上训练的Meta AI的LLaMA 7B的另一个开源复制。

参数:3,7B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model

RedPajama-INCITE

基于RedPajama数据集上训练的指令调整和聊天Pythia模型。

参数:3B, 7B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: RedPajama-INCITE family of models including base, instruction-tuned & chat models

h2oGPT

H2O的微调框架和文档问答功能的聊天机器人UI

参数:12B,30B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: Building the World’s Best Open-Source Large Language Model: H2O.ai’s Journey

FastChat-T5

通过微调Flan-t5-xl对从ShareGPT收集的用户共享对话进行训练的聊天机器人

参数:3B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: FastChat-T5 — our compact and commercial-friendly chatbot!

GPT4All

用于训练和部署强大的定制llm的完整工具系统

参数:7–13B

许可类型:MIT

发布日期: 2023年4月

论文: GPT4All: An ecosystem of open-source on-edge large language models.

MiniGPT-4

基于BLIP-2和Vicuna LLM的Visual LLM模型

参数:13B

许可类型:BSD-3-Clause

发布日期: 2023年4月

论文: MiniGPT-4 — Enhancing Vision-Language Understanding withAdvanced Large Language Models

StableLM

StableLM的LLM模型系列

参数:7B

许可类型:CC BY-NC-SA-4.0

发布日期: 2023年4月

论文: Stability AI Launches the First of its StableLM Suite of Language Models

BloomZ

通过多任务微调实现跨语言泛化

参数:176B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: Cross-lingual Generalization through Multitask Finetuning

Dolly

Pythia 12B LLM在Databricks ML平台上训练的模型

参数:12B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM

Baize Chatbot

基于LLaMa的开源聊天模型

参数:30B

许可类型:GPL-3.0 license

发布日期: 2023年4月

论文: Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

ColossalChat

由ColossalAI开源发布的一个完整的RLHF流程训练的模型

参数:N/A

许可类型:Apache 2.0

发布日期: 2023年4月

论文: ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline

Lit LLaMa

来自Lightning AI的LLaMA的开源实现

参数:13B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: Why We’re Building Lit-LLaMA

Cerebras-GPT

开放的,计算效率高的,大型语言模型

参数:111M-13B

许可类型:Apache 2.0

发布日期:2023年3月

论文: Cerebras-GPT — Open Compute-Optimal Language ModelsTrained on the Cerebras Wafer-Scale Cluster

Open Flamingo

Deepmind的Flamingo模型的开源实现

参数:9B

许可类型:MIT License

发布日期: 2023年3月

论文: Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning

Chat GLM

使用开放式双语(中英文)双向密集预训练模型

参数:6B-130B

许可类型:Apache 2.0

发布日期: 2023年3月

论文: GLM-130B: An Open Bilingual Pre-trained Model

DLite

通过微调Alpaca数据集上最小的GPT-2模型

参数:124M

许可类型:Apache 2.0

发布日期: 2023年3月

论文: Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly

Alpaca 7B

描述:斯坦福大学发布的指令遵循LLaMA模型

参数:7B

许可类型:Apache 2.0

发布日期: 2023年3月

论文: Alpaca — A Strong, Replicable Instruction-Following Model

Flan UL2

在预训练的UL2检查点上训练Flan 20B模型。

参数:20B

许可类型:MIT License

发布日期: 2023年3月

论文: A New Open Source Flan 20B with UL2

Flan-T5

T5在各种数据集上的指令微调,提高预训练语言模型的可用性

参数:60M–11B

许可类型:Apache 2.0

发布日期: 2023年2月

论文: Scaling Instruction-Finetuned Language Models

总结

最后再补充2个刚刚发布的模型,一个是llama-2,这个我们文章也在前几天介绍了微调和使用的方法。另外一个就是昨天刚看到的新闻,stabilityai发布的 FreeWilly2,它是在 Llama2 70B 上微调的结果,目前在open_llm_leaderboard上排第一。

开源大型语言模型正在迅速发展,开源社区发布了许多模型。这些模型为开发人员、研究人员和爱好者提供了一个非常大机会,可以在没有专有系统的情况下试验尖端的语言技术。随着越来越多的组织和个人为这些模型的发展做出贡献,我们可以期待看到更强大、更容易使用和更创新的语言模型,它们将塑造自然语言处理的未来。

https://avoid.overfit.cn/post/5c7d723571254111815fc08eb05f79c1

作者:Manikanth

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/790869.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis Stream 流的深度解析与实现高级消息队列【一万字】

详细介绍了 Redis 5.0 版本新增加的数据结构Stream的使用方式以及原理,如何实现更加可靠的消息队列。 文章目录 Stream 概述2 Stream基本结构3 存储数据3.1 Entry ID3.2 数量限制 4 获取数据4.1 范围查询4.2 独立消费消息4.2.1 非阻塞使用4.2.2 阻塞的使用 4.3 消费…

【Spring定时器】SpringBoot整合Quartz

SpringBoot整合Quartz 简单介绍 简单操作 导入相关pom依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-quartz</artifactId></dependency>创建继承类MyQuartz package com.ustc.quartz; …

C语言假期作业 DAY 01

题目 1.选择题 1、执行下面程序&#xff0c;正确的输出是&#xff08; &#xff09; int x5,y7; void swap() { int z; zx; xy; yz; } int main() { int x3,y8; swap(); printf("%d,%d\n"&#xff0c;x, y)…

Docker 单机/集群 部署 Nacos2.2.0

单机部署 1- 拉取镜像 docker pull nacos/nacos-server:v2.2.02- 准备挂载的配置文件目录和日志目录 日志目录(空目录)&#xff1a;./nacos/logs配置文件&#xff1a;./nacos/conf/application.properties 从官网下载 nacos 压缩包&#xff1a;Release 2.2.0 (Dec 14, 2022…

基于SpringBoot+vue的医院信管系统设计与实现(源码+LW+部署文档等)

博主介绍&#xff1a; 大家好&#xff0c;我是一名在Java圈混迹十余年的程序员&#xff0c;精通Java编程语言&#xff0c;同时也熟练掌握微信小程序、Python和Android等技术&#xff0c;能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架…

TypeScript -- 基础类型

文章目录 TypeScript -- 基础类型let 和 const基本类型写法布尔类型 -- boolean数字类型 -- number字符串类型 -- string数组类型元组类型枚举类型 -- enum任意类型 -- any空值 -- voidNull 和 Undefined不存在的类型 -- never对象 -- object类型断言 TypeScript – 基础类型 1…

关于 ivanti Access Client软件配置问题

最近需要使用ivanti工具连接校园网&#xff0c;但是经常出现ivanti连接后&#xff0c;WIFI或有线网络就显示无互联网连接的情况。 为此&#xff0c;我检查了一下网络的配置状态&#xff0c;发现ivanti连接的时候回临时创建一个网络adapter&#xff0c;该adapter有 一个身份验证…

Java训练二

一、斐波那契数列 1、1、2、3、5、8、13、21、34、...是一组典型的斐波那契数列&#xff0c;前两个数相加等于第三个数。那么请问这组数中的第n个数的值是多少&#xff1f; package haha; import java.util.Scanner; public class helloworld{public static void main(String…

Python基础语法第四章之函数

目录 一、函数 1.1函数是什么 1.2语法格式 1.3函数参数 1.4函数返回值 1.5变量作用域 1.5.1变量只能在所在的函数内部生效. 1.5.2 在不同的作用域中, 允许存在同名的变量 1.5.3如果函数内部尝试访问的变量在局部不存在, 就会尝试去全局作用域中查找 1.5.4如果是想在函数…

头戴式玩具外贸出口EN71检测报告需要什么资料?

EN71是欧盟市场玩具类产品的规范标准。儿童是全社会最关心和爱护的群体&#xff0c;儿童普遍喜爱的玩具市场发展迅猛&#xff0c;同时各类玩具由于各方面质量问题给儿童带来的伤害也时有发生&#xff0c;因此世界各国对本国市场上的玩具的要求正日益变得严格。许多国家都就这些…

【C语言day06】

逻辑或运算如果前表达式为真&#xff0c;后表达式不计算&#xff0c;第一次循环时i为0&#xff0c;执行i&#xff0c;第二次循环时i为1&#xff0c;是个真值&#xff0c;不再执行i&#xff0c;也就死循环了 在C语言中&#xff0c;一个函数如果不写返回值类型&#xff0c;那么就…

2023年深圳杯数学建模B题电子资源版权保护问题

2023年深圳杯数学建模 B题 电子资源版权保护问题 原题再现&#xff1a; 版权又称著作权&#xff0c;包括发表权、署名权、修改权、保护作品完整权、复制权、发行权、出租权、展览权、表演权、放映权、广播权、信息网络传播权、摄制权、改编权、翻译权、汇编权及应当由著作权人…

【Element-ui】学习与使用

网站快速成型工具Element&#xff0c;一套为开发者、设计师和产品经理准备的基于vue2.0的桌面端组件库 安装 npm i element-ui -S 在项目中安装element-ui&#xff0c;安装了以后查看package.json中的依赖中有没有element-ui的版本&#xff0c;如果有&#xff0c;则说明安装成功…

通过STM32内部ADC将烟雾传感器发送的信号值显示在OLED上

一.CubeMX配置 首先我们在CubeMX配置ADC1, 设置一个定时器TIM2定时1s采样一次以及刷新一次OLED&#xff0c; 打开IIC用于驱动OLED显示屏。 二.程序 在Keil5中添加好oled的显示库&#xff0c;以及用来显示的函数、初始化函数、清屏函数等。在主程序中初始化oled,并将其清屏。…

轻松学会 React 钩子:以 useEffect() 为例

一、React 的两套 API 以前&#xff0c;React API 只有一套&#xff0c;现在有两套&#xff1a;类&#xff08;class&#xff09;API 和基于函数的钩子&#xff08;hooks&#xff09; API。 任何一个组件&#xff0c;可以用类来写&#xff0c;也可以用钩子来写。下面是类的写法…

解密智能汽车云控基础平台网络架构

全球汽车产业正经历深度转型期&#xff0c;电动化、智能化、网联化成为该行业的主流趋势。随着技术的进步和人们对便利、智能出行的需求不断增加&#xff0c;智能汽车的市场前景广阔。 欲要了解智能汽车车联网&#xff0c;必先了解汽车智能化和网联化的管控中枢- 云控基础平台…

【C++】C++11---lambda表达式

目录 1、lambda表达式1&#xff09;什么是lambda表达式2&#xff09;lambda表达式语法3&#xff09;函数对象与lambda表达式 1、lambda表达式 1&#xff09;什么是lambda表达式 在C98中&#xff0c;如果想要对一个数据集合中的元素进行排序&#xff0c;可以使用std::sort方法…

算法竞赛入门【码蹄集新手村600题】(MT1040-1060)

算法竞赛入门【码蹄集新手村600题】(MT1040-1060&#xff09; 目录MT1041 求圆面积和周长MT1042 求矩形的面积和周长MT1043 椭圆计算MT1044 三角形面积MT1045 平行四边形MT1046 菱形MT1047 梯形MT1048 扇形面积MT1049 三角形坐标MT1050 空间三角形MT1051 四边形坐标MT1052 直角…

win10系统wps无法启动(打开文档)

我的win10系统中&#xff0c;之前可以顺畅地打开wps&#xff0c;但最近无法打开文档&#xff0c;停留在启动页面&#xff0c;在任务管理器中可以看到启动的wps线程&#xff0c;如果继续双击文档&#xff0c;线程增加&#xff0c;但依然无法打开文档。 wps版本是刚刚更新的15120…