2024 年 19 种最佳大型语言模型

news2025/1/9 5:53:08

大型语言模型是 2023 年生成式人工智能热潮背后的推动力。然而,它们已经存在了一段时间了。

LLM是黑盒 AI 系统,它使用深度学习对超大数据集进行处理,以理解和生成新文本。现代 LLM 开始成型于 2014 年,当时一篇题为“通过联合学习对齐和翻译的神经机器翻译”的研究论文中引入了注意力机制(一种旨在模仿人类认知注意力的机器学习技术)。2017 年,另一篇论文“注意力就是你所需要的”中引入了 Transformer 模型,这种注意力机制得到了进一步完善。

当今一些最著名的语言模型都是基于 transformer 模型的,包括生成式预训练 transformer 系列LLM 和来自 transformer 的双向编码器表示 (BERT)。

ChatGPT运行在 OpenAI 的一组语言模型上,在 2022 年发布后仅两个月就吸引了超过 1 亿用户。此后,许多竞争模型相继发布。其中一些属于谷歌和微软等大公司;另一些则是开源的。

以下是当今最相关的一些大型语言模型。它们进行自然语言处理并影响未来模型的架构。

BERT

BERT是 Google 于 2018 年推出的 LLM 系列。BERT 是一种基于 Transformer 的模型,可以将数据序列转换为其他数据序列。BERT 的架构是 Transformer 编码器的堆栈,具有 3.42 亿个参数。BERT 在大量数据上进行了预训练,然后进行了微调以执行特定任务以及自然语言推理和句子文本相似性。它被用于提高 Google 搜索 2019 年迭代中的查询理解能力。

Claude

Claude 法学硕士专注于体质人工智能,它以一系列原则为指导塑造人工智能输出,这些原则有助于它所支持的人工智能助手有用、无害且准确。Claude 由 Anthropic 公司创建。Claude 法学硕士的最新版本是 Claude 3.0。

Cohere

Cohere 是一个企业 AI 平台,提供多种 LLM,包括 Command、Rerank 和 Embed。这些LLM 可以根据特定公司的用例进行定制训练和微调。创建 Cohere LLM 的公司是由《Attention Is All You Need》的作者之一创立的。Cohere 的优势之一是它不依赖于单一云——不像 OpenAI 那样依赖于 Microsoft Azure。

Ernie

Ernie 是百度的大型语言模型,为 Ernie 4.0 聊天机器人提供支持。该机器人于 2023 年 8 月发布,已拥有超过 4500 万用户。据传 Ernie 拥有 10 万亿个参数。该机器人最适合普通话,但也能够处理其他语言。

Falcon 40B

Falcon 40B 是一种基于 Transformer 的因果解码器专用模型,由技术创新研究所开发。它是开源的,并基于英语数据进行训练。该模型还有两个较小的版本:Falcon 1B 和 Falcon 7B(10 亿和 70 亿个参数)。亚马逊已在Amazon SageMaker上提供 Falcon 40B 。它也可以在 GitHub 上免费获取。

Gemini

Gemini是 Google 的 LLM 系列,为该公司的同名聊天机器人提供支持。该模型取代了 Palm 为聊天机器人提供支持,在模型切换后,聊天机器人从 Bard 更名为 Gemini。Gemini 模型是多模式的,这意味着它们可以处理图像、音频和视频以及文本。Gemini 还集成在许多 Google 应用程序和产品中。它有三种尺寸——Ultra、Pro 和 Nano。Ultra 是最大、功能最强大的模型,Pro 是中端模型,Nano 是最小的模型,专为提高设备上任务的效率而设计。Gemini 在大多数评估基准上都优于 GPT-4。

Gemma

Gemma是 Google 的开源语言模型系列,使用与 Gemini 相同的资源进行训练。Gemma 有两种规模——20 亿参数模型和 70 亿参数模型。Gemma 模型可以在个人电脑本地运行,并且在多个评估基准上超越了类似规模的 Llama 2 模型。

GPT-3

GPT-3是 OpenAI 于 2020 年发布的大型语言模型,拥有超过 1750 亿个参数。GPT-3 采用仅解码器的 Transformer 架构。2022 年 9 月,微软宣布独家使用 GPT-3 的底层模型。GPT-3 比其前身大 10 倍。GPT-3 的训练数据包括 Common Crawl、WebText2、Books1、Books2 和 Wikipedia。

GPT-3 是 OpenAI 公开参数计数的 GPT 系列模型中的最后一款。GPT 系列于 2018 年首次推出,当时 OpenAI 发表了一篇论文《通过生成式预训练提高语言理解能力》。

GPT-3.5

GPT-3.5 是 GPT-3 的升级版,参数更少。GPT-3.5 使用来自人类反馈的强化学习进行了微调。GPT-3.5 是支持 ChatGPT 的 GPT 版本。据 OpenAI 称,有几种模型,其中 GPT-3.5 turbo 是最强大的。GPT-3.5 的训练数据延伸到 2021 年 9 月。

它也曾被集成到 Bing 搜索引擎中,但后来被 GPT-4 取代。

GPT-4

GPT-4是OpenAI 的 GPT 系列中最大的模型,于 2023 年发布。与其他模型一样,它也是基于 Transformer 的模型。与其他模型不同的是,它的参数数量尚未向公众公布,尽管有传言称该模型的参数数量超过 170 万亿。OpenAI 将 GPT-4 描述为多模态模型,这意味着它可以处理和生成语言和图像,而不仅限于语言。GPT-4 还引入了系统消息,让用户可以指定语调和任务。

GPT-4 在多项学术考试中表现出了与人类水平相当的表现。在该模型发布时,有人猜测 GPT-4 已经接近通用人工智能(AGI),这意味着它与人类一样聪明甚至比人类更聪明。GPT-4 为 Microsoft Bing 搜索提供支持,可在 ChatGPT Plus 中使用,最终将集成到 Microsoft Office 产品中。

GPT-4o

GPT-4 Omni(GPT-4o)是 OpenAI 的 GPT-4 继任者,与之前的模型相比有多项改进。GPT-4o 为 ChatGPT 创造了更自然的人机交互,是一个大型多模态模型,接受音频、图像和文本等各种输入。对话让用户可以像在正常的人类对话中一样参与,实时互动还可以捕捉情绪。GPT-4o 可以在交互过程中查看照片或屏幕并提出相关问题。

GPT-4o 的响应时间仅为 232 毫秒,与人类的响应时间相似,比 GPT-4 Turbo 更快。GPT-4o 模型是免费的,将提供给开发者和客户产品。

Lamda

Lamda(对话应用语言模型)是 Google Brain 于 2021 年发布的 LLM 系列。Lamda 使用了仅解码器的转换器语言模型,并在大量文本语料库上进行了预训练。2022 年,当时的谷歌工程师 Blake Lemoine 公开声称该程序具有感知能力, LaMDA 引起了广泛关注。它建立在 Seq2Seq 架构上。

Llama

大型语言模型 Meta AI (Llama) 是 Meta 于 2023 年发布的 LLM。最大版本的大小为 650 亿个参数。Llama 最初发布给经批准的研究人员和开发人员,但现在已开源。Llama 的规模较小,使用、测试和实验所需的计算能力较少。

Llama 使用转换器架构,并在各种公共数据源上进行训练,包括 CommonCrawl、GitHub、Wikipedia 和 Project Gutenberg 的网页。Llama 被有效泄露并衍生出许多后代,包括 Vicuna 和 Orca。

Mistral

Mistral 是一个 70 亿参数的语言模型,在所有评估基准上都优于 Llama 类似规模的语言模型。Mistral 还拥有一个经过微调的模型,专门用于遵循指令。其较小的尺寸使其能够实现自托管,并具有出色的业务性能。它是根据 Apache 2.0 许可证发布的。

Orca

Orca 由微软开发,拥有 130 亿个参数,这意味着它足够小,可以在笔记本电脑上运行。它旨在通过模仿 LLM 实现的推理过程来改进其他开源模型所取得的进步。Orca 以明显更少的参数实现了与 GPT-4 相同的性能,并且在许多任务上与 GPT-3.5 相当。Orca 建立在 130 亿个参数版本的 LLaMA 之上。

Pathways

Pathways 语言模型是谷歌推出的一款基于 5400 亿参数转换器的模型,为它的 AI 聊天机器人Bard提供支持。该模型在多个TPU 4 Pod(谷歌为机器学习定制的硬件)上进行训练。Palm 擅长推理任务,例如编码、数学、分类和问答。Palm 还擅长将复杂任务分解为更简单的子任务。

PaLM 的名称源自 Google 的一项研究计划,该计划旨在构建 Pathways,最终创建一个单一模型,作为多种用例的基础。Palm 有多个经过微调的版本,包括用于生命科学和医疗信息的 Med-Palm 2 以及用于网络安全部署以加快威胁分析的 Sec-Palm。

Phi-1

Phi-1 是微软推出的一款基于 Transformer 的语言模型。Phi-1 仅包含 13 亿个参数,在一系列教科书级数据上训练了四天。Phi-1 是使用更高质量数据和合成数据进行训练的小型模型趋势的一个例子。

特斯拉前人工智能总监、OpenAI 员工 Andrej Karpathy 在推文中写道:“我们可能会看到更多富有创意的缩减工作量的做法:优先考虑数据质量和多样性而不是数量,生成更多的合成数据,以及小型但功能强大的专家模型。”

Phi-1 专注于Python编码,由于规模较小,通用能力较差。

StableLM

StableLM 是 Stability AI 开发的一系列开源语言模型,该公司是图像生成器 Stable Diffusion 的幕后推手。截至撰写本文时,已有 30 亿和 70 亿参数模型可用,150 亿、300 亿、650 亿和 1750 亿参数模型正在开发中。StableLM 的目标是透明、可访问且支持性强。

Vicuna 33B

Vicuna 是另一个有影响力的开源 LLM,源自 Llama。它由 LMSYS 开发,并使用 sharegpt.com 的数据进行了微调。根据几个基准测试,它比 GPT-4 更小、功能更弱,但对于其大小的模型来说,它表现不错。Vicuna 只有 330 亿个参数,而 GPT-4 有数万亿个参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1820627.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙轻内核A核源码分析系列七 进程管理 (1)

本文开始继续分析OpenHarmony LiteOS-A内核的源代码,接下来会分析进程和任务管理模块。本文中所涉及的源码,以OpenHarmony LiteOS-A内核为例,均可以在开源站点 https://gitee.com/openharmony/kernel_liteos_a 获取。如果涉及开发板&#xff…

排名前五的 Android 数据恢复软件

正在寻找数据恢复软件来从 Android 设备恢复数据?本指南将为您提供 5 款最佳 Android 数据恢复软件。浏览这些软件,然后选择您喜欢的一款来恢复 Android 数据。 ndroid 设备上的数据丢失可能是一种令人沮丧的经历,无论是由于意外删除、系统崩…

Sm4【国密4加密解密】

当我们开发金融、国企、政府信息系统时,不仅要符合网络安全的等保二级、等保三级,还要求符合国密的安全要求,等保测评已经实行很久了,而国密测评近两年才刚开始。那什么是密码/国密?什么是密评?本文就关于密…

vs2019 c++20规范 STL 库中头文件 <atomic> 源码注释及探讨几个知识点

(1 探讨一) 模板类 atomic 的继承关系与数据结构如下: (2 探讨二 ) 可见 atomic 的 fetch_xx 函数,返回的都是 atomic 中存储的旧值。测试如下: 谢谢

Weighted A* 改进型(1):XDP

本文的主要内容来自于文献[1],总的来说这篇文献给我的感觉就是理论证明非常精妙,最后的实际效果也是提升的非常明显。 在Introduction中作者给出了一般Best first search(BFS,常用的包括A *,weighted A * &#xff0c…

FPGA - 滤波器 - FIR滤波器设计

一,数字滤波器 滤波器是一种用来减少或消除干扰的器件,其功能是对输入信号进行过滤处理得到所需的信号。滤波器最常见的用法是对特定频率的频点或该频点以外的频率信号进行有效滤除,从而实现消除干扰、获取某特定频率信号的功能。一种更广泛的…

一杯咖啡的艺术 | 如何利用数字孪生技术做出完美的意式浓缩咖啡?

若您对数据分析以及人工智能感兴趣,欢迎与我们一起站在全球视野关注人工智能的发展,与Forrester 、德勤、麦肯锡等全球知名企业共探AI如何加速制造进程, 共同参与6月20日由Altair主办的面向工程师的全球线上人工智能会议“AI for Engineers”…

考研计组chap3存储系统

目录 一、存储器的基本概念 80 1.按照层次结构 2.按照各种分类 (41)存储介质 (2)存取方式 (3)内存是否可更改 (4)信息的可保存性 (5)读出之后data是否…

Sui Bridge在测试网上线并推出10万SUI激励计划

是一种为Sui设计的原生桥接协议,专门用于在Sui与其他网络之间桥接资产和数据。今天,Sui Bridge宣布在测试网上线。作为一种原生协议,Sui Bridge能够在Ethereum和Sui之间轻松且安全地转移ETH、wBTC、USDC和USDT,使其成为Sui基础设施…

法考报名必看,99%高过审率证件照片电子版制作技巧

在2024年,法考备战已经如火如荼进行中,作为进入法律行业的第一步,参加法考的重要性不言而喻。而作为报名过程中必不可少的一环,报名照片要求以及证件照制作技巧更是需要我们特别重视的部分。想要在这个过程中顺利通过审核&#xf…

windows 下 docker 入门

这里只是具体过程,有不清楚的欢迎随时讨论 1、安装docker ,除了下一步,好像也没有其他操作了 2、安装好docker后,默认是运行在linux 下的,这时我们需要切换到windows 环境下, 操作:在右下角d…

docker拉取镜像失败超时的解决方法,docker配置国内镜像源

更换国内源 创建或修改 /etc/docker/daemon.json 文件 安装docker后一般只有 /etc/docker 这个目录 下面并没有 daemon.json 文件 我们直接创建 : vim /etc/docker/daemon.json {"registry-mirrors" : ["https://registry.docker-cn.com"…

jfif格式怎么转换成jpg?关于将jfif转成jpg的几种方法

jfif格式怎么转换成jpg?JFIF格式是一种常见的图像文件格式,通常用于存储数字照片。然而,在某些情况下,你可能需要将JFIF格式转换为JPG格式。JPG格式是一种广泛使用的图像格式,它被支持和接受的程度比JFIF更高。PNG是一…

长沙干洗服务,打造您的专属衣橱

长沙干洗服务,用心呵护您的每一件衣物!致力于为您打造专属的衣橱,让您的每一件衣物都焕发出独特的魅力。 我们深知每一件衣物都承载着您的故事和情感,因此我们会以更加细心的态度对待每一件衣物。无论是您心爱的牛仔裤&#xff0c…

虚拟化 之三 详解 jailhouse(ARM 平台)的构建过程、配置及使用

嵌入式平台下,由于资源的限制,通常不具备通用性的 Linux 发行版,各大主流厂商都会提供自己的 Linux 发行版。这个发行版通常是基于某个 Linux 发行版构建系统来构建的,而不是全部手动构建,目前主流的 Linux 发行版构建系统是 Linux 基金会开发的 Yocto 构建系统。 基本环…

Python基础教程(十六):正则表达式

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

企业多云策略的优势与实施指南

企业在选择云服务提供商时,常见的选项包括亚马逊AWS、微软Azure、谷歌云GCP、阿里云、腾讯云和华为云。为了避免过度依赖单一供应商,许多企业选择采用多云策略,这样可以充分利用不同云服务的优势,同时避免重复工作和其他额外的工作…

16个不为人知的资源网站,强烈建议收藏!

整理了16个不为人知的资源网站,涵盖了课程学习、办公技能、娱乐休闲、小说音乐等多种资源,强烈建议收藏! #学习网站 1、中国大学MOOC icourse163.org/ 这是一个汇集了国内顶尖大学免费课程资源的平台,众多985工程院校如北京大…

现代易货模式:重塑物品价值,引领交换新潮流

在日益繁荣的现代社会,物品交换文化正逐渐兴起,一种新型的交易模式——现代易货模式,正在成为市场的新宠。它不仅是对传统“以物易物”模式的现代化演绎,更是对物品价值再认识和交换方式创新的体现。 现代易货模式,简言…

人工智能入门学习教程分享

目录 1.首先安装python,官网地址:Download Python | Python.org,进入网址,点击Windows链接 2.下载完成之后,进行傻瓜式安装,如果不选安装路径,默认会安装到C:\Users\Administrator\AppData\Loc…