AI初学者必看: 什么是大型语言模型 (LLM)?

news2024/12/23 13:44:59

介绍

“人工智能(AI)”一词于 1956 年问世,如今已为大家所熟知。然而,在 ChatGPT 迅速流行之前,AI 的使用和讨论大多局限于科学研究或虚构电影。如今,AI 尤其是生成式 AI 已成为大家热议的话题。

初学者生成式人工智能科普系列内容面向希望踏上人工智能之旅的任何人。目前,无论您的角色和工作内容如何,无论您是技术人员还是产品专家,或者担任其他任何角色,学习了解生成式人工智能的基础知识绝对是一个明智之举。

大型语言模型在生成式人工智能中处于什么位置?

让我们以 ChatGPT 为例来清楚地理解它。在 ChatGPT 的众多功能中,一项是理解人类语言(用简单的英语提出的问题)。它还可以生成我们人类可以理解的响应。ChatGPT 与人类交流的这种能力是由大型语言模型提供支持的。

换句话说,我们可以说——需要生成类似人类文本的生成式人工智能系统需要大型语言模型。

让我们用通俗易懂的语言进一步分解一下!

什么是语言模型?

语言模型是:

  • 一种机器学习模型。

  • 它使用各种统计和概率技术。

  • 预测句子或短语中给定单词序列的概率。

简单来说,语言模型的目的是根据给定的句子/短语的上下文,预测下一个最合适的单词来填补句子或短语中的空白。

让我们举一个例子来更好地理解!

当我们在手机上使用消息应用时,它会在我们输入消息时预测下一个单词,从而帮助我们更快的输入。例如,当我们输入“how”时,手机可能会建议“are”或“is”等单词,因为它知道这些词在句子中通常位于“how”之后。

类似地,如果我们输入“我要去”,手机可能会预测“商店”,“公园”,“办公室”或“海滩”等词,因为这些是日常语言中“去”之后的常用词。

这个预测是根据我们迄今为止输入的内容以及通过分析大量文本学到的模式做出的。

大型语言模型(LLM)

大型语言模型 (LLM) 是一种语言模型,其特点是:

  • 一种机器学习模型。

  • 它是在大量文本数据集上训练的。

  • 并使用先进的神经网络架构。

  • 生成或预测类似人类的文本。

回到我们之前的例子,语言模型可以帮助人工智能工具预测句子中即将出现的单词。

下图总结了有关大型语言模型的重要点。

大型语言模型最独特、最强大的一点是它们**能够生成类似人类的文本,并根据大量数据总结和预测内容。**LLM可以处理和分析大量文本数据,使其在文本生成、总结、翻译和情感分析等语言处理任务中非常熟练。

自然语言处理 (NLP)

自然语言处理是一个与 LLM 密切相关的重要概念。

自然语言处理(NLP)是人工智能的一个子集,它专注于计算机与人类通过自然语言(例如英语)之间的交互。

  • NLP是指让计算机理解人类的语言,并用同一种语言与我们进行交流的过程。

  • NLP 使用算法来分析、理解和生成人类语言。

  • 它还可以帮助计算机理解单词和句子背后的上下文和情感。

让我们再举一个例子来更好地理解 NLP。虚拟助手,例如 Siri,可以使用 NLP 理解并响应我们的命令。

想象一下,你问 Siri,“将闹钟设置为明天早上 7 点。”

  • Siri 的 NLP 算法会分析句子,将其分解为单个单词并理解其含义、语法和上下文。

  • NLP算法将能够理解用户的意图,即设置闹钟。

  • 此外,Siri 会执行命令中指定的操作,在您的设备上设置第二天早上 7 点的闹钟。

  • 最后,Siri 会用你的语言做出回应。

自然语言处理是响应人类(例如 ChatGPT)、语言翻译、搜索引擎等任务的支柱。

自然语言处理 (NLP) 和大型语言模型 (LLM)

**大型语言模型可以看作是自然语言处理模型的演变。**换句话说,我们可以说大型语言模型是任何为 NLP 任务设计的模型,专注于理解和生成类似人类的文本。

虽然 NLP 包含各种用于处理人类语言的模型和技术,但 LLM 专注于理解和生成类似人类的文本。LLM 专门设计用于根据单词或句子前面的单词来预测单词或句子的概率,从而使它们能够生成连贯且上下文相关的文本。

从机器学习技术的角度来看,自然语言处理使用广泛的技术,从基于规则的方法到机器学习和深度学习方法。

另一方面,大型语言模型主要使用深度学习技术来理解文本数据中的模式和上下文,以预测序列中下一个单词的概率。LLM 是基于人工神经网络架构设计的。大多数大型语言模型都是基于 Transformer 的模型。

大型语言模型与生成式人工智能有何关系?

大型语言模型 (LLM) 是生成式 AI 的一个子集。虽然生成式 AI 可以生成多种类型的内容,例如文本、图像、视频、代码、音乐等,但 LLM 仅专注于生成文本。

大型语言模型在哪里/如何使用?

大型语言模型 (LLM) 在不同行业的各种 AI 应用中使用。以下是一些主要示例:

虚拟助手

LLM 模型是驱动虚拟助手(例如 Siri、Alexa 或 Google Assistant)的引擎。LLM 模型可以分析人类命令并解释其含义,帮助这些虚拟助手代表用户执行多项操作。

聊天机器人

ChatGPT 不再是一个新词。我们大多数人都使用过它或类似的 AI 对话聊天机器人。这些聊天机器人使用大型语言模型来理解人类的问题并以模仿人类语言的方式做出回应。

语言翻译

大型语言模型在谷歌翻译等人工智能工具的语言翻译中发挥着重要作用。这些模型经过大量多语言文本数据的训练,能够捕捉不同语言的细微差别、变化、上下文和复杂性。

当我们要求翻译工具翻译一个句子时,它会使用 LLM 算法来分析一种语言的输入文本,并生成目标语言中准确且符合上下文的翻译。

通过双向考虑两种语言中单词和短语之间的关系,法学硕士可以生成保留原文含义和语气的翻译。

文本生成

如今,许多应用程序都使用大型语言模型来生成类似人类的文本。这些模型非常复杂,可以根据给定的提示或输入生成连贯且上下文相关的文本。LLM 模型可用于撰写故事、生成产品描述、撰写电子邮件等等。

文档总结

大型语言模型对于文档摘要非常有用。使用自然语言处理功能,LLM 模型可以将冗长的文档或文章总结为简洁的摘要,同时保留关键信息和要点。使用以下技术注意力机制和上下文理解,法学硕士可以确定摘要中要包含的最突出的信息,确保它抓住了原文的本质。

情绪分析

情感分析是确定文本中表达的情感或情绪基调的过程。大型语言模型可用于分析大量文本数据,理解语言的上下文、细微差别和语调,并识别情感极性(积极、消极或中性)。

如今,许多组织使用大型语言模型来识别来自社交媒体帖子、产品评论、客户反馈、新闻文章等文本数据中的情绪。

内容推荐

Netflix、YouTube、Amazon 等平台越来越多地使用大型语言模型 (LLM) 进行内容推荐,以便为用户提供更加个性化和相关的建议。这些模型可以捕捉单词、短语和主题之间的关系,从而理解内容的含义和上下文。在内容推荐方面,LLM 会分析用户与内容的互动,例如他们阅读过的文章、购买过的产品或观看过的视频。根据这些数据,LLM 可以预测用户可能对哪些其他内容感兴趣,并推荐相关选项。

大型语言模型的一些流行示例

以下是一些使用大型语言模型的流行应用程序。

GPT(生成式预训练 Transformer)

生成式预训练 Transformer 可能是最受欢迎的大型语言模型,它用于 ChatGPT。在 2017 年推出 Transformer 架构后,OpenAI 于 2018 年发布了 GPT-1 作为其首个基于 Transformer 的大型语言模型。GPT-1 最初在 BookCorpus 上进行训练,该数据集包含 7000 多本自出版书籍。

随后,OpenAI 发布了更高级的 GPT 版本,即 GPT-2、GPT-3、GPT-3.5 和 GPT-4。所有这些都是基于 Transformer 的大型语言模型。GPT-4 是一个多模态模型,这意味着它可以将图像和文本作为输入。

BERT(来自 Transformer 的双向编码器表示)

BERT 是 Google 于 2018 年推出的基于 Transformer 的大型语言模型。BERT 代表了大型语言模型和自然语言处理领域的重大进步。它是一种双向 Transformer 模型,可以并行处理单词,与循环神经网络 (RNN) 等传统顺序模型相比效率更高。

LaMDA(对话应用语言模型)

LaMDA 是谷歌开发的对话式大型语言模型,也是一个基于 Transformer 的模型。在 ChatGPT 突然崛起之后,谷歌宣布了自己的对话式 AI 聊天机器人“Bard”。Bard 由 LaMDA 提供支持。

后来,谷歌推出了 PaLM(Pathways Language Model),作为 LaMDA 的继任者。此外,在 2024 年,谷歌将 Bard 更名为“Gemini”。Gemini 由同名的大型语言模型 (LLM) 提供支持。Gemini 多模态大型语言模型是 LaMDA 和 PaLM 的继任者。

LLaMA(大型语言模型元人工智能)

LLaMA(大型语言模型 Meta AI)是 Meta AI 推出的一组大型语言模型(LLM)。LLaMA 是一种自回归语言模型,建立在 Transformer 架构上。

看到这里相信你已经对大型语言模型有了初步的认识。如果您有任何疑问或想法,欢迎评论区留言探讨。

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
      - L1.4.1 知识大模型
      - L1.4.2 生产大模型
      - L1.4.3 模型工程方法论
      - L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
      - L2.1.1 OpenAI API接口
      - L2.1.2 Python接口接入
      - L2.1.3 BOT工具类框架
      - L2.1.4 代码示例
    • L2.2 Prompt框架
      - L2.2.1 什么是Prompt
      - L2.2.2 Prompt框架应用现状
      - L2.2.3 基于GPTAS的Prompt框架
      - L2.2.4 Prompt框架与Thought
      - L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
      - L2.3.1 流水线工程的概念
      - L2.3.2 流水线工程的优点
      - L2.3.3 流水线工程的应用
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
      - L3.1.1 Agent模型框架的设计理念
      - L3.1.2 Agent模型框架的核心组件
      - L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
      - L3.2.1 MetaGPT的基本概念
      - L3.2.2 MetaGPT的工作原理
      - L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
      - L3.3.1 ChatGLM的特点
      - L3.3.2 ChatGLM的开发环境
      - L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
      - L3.4.1 LLAMA的特点
      - L3.4.2 LLAMA的开发环境
      - L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

学习计划:

  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1963263.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Process Explorer和Dependency Walker排查dll动态库加载失败的问题

目录 1、问题描述 2、如何调试Release版本的代码? 3、使用Process Explorer查看exe主程序加载的dll库列表,发现mediaplay.dll没有加载起来 4、使用Dependency Walker查看rtcmpdll.dll的库依赖关系和接口调用情况,定位问题 4.1、使用Depe…

html+css+js 实现3D透视倾斜按钮,javascript库之vanilla-tilt.js详解

前言:哈喽,大家好,今天给大家分享htmlcss 绚丽效果!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 文…

常用游戏运行库 v4 官方版下载与安装教程 (游戏DLL补全包)

前言 游戏运行库包含了VC运行库合集,.NET2.0到.NET4.8合集,DirectX9.0 Rapture3D 等游戏必备的系统组件,如果你的游戏安装后无法运行,那么安装这些组件基本上就可以解决。本必备运行库安装包集成32位和64位运行库,是目…

(自用)MyLog 简单日志 .net6.0 等

appsettings.json {"LogOnOff": true //true 开启日志&#xff1b;false 关闭日志 } MyLog.cs using System.ComponentModel;namespace Namespace {/// <summary>/// 日志类型 枚举/// </summary>public enum LogType{[Description("调试日志&q…

Android经典面试题之实战经验分享:如何简单实现App的前后台监听判断

本文首发于公众号“AntDream”&#xff0c;欢迎微信搜索“AntDream”或扫描文章底部二维码关注&#xff0c;和我一起每天进步一点点 在Android中判断一个应用是否处于前台或后台&#xff0c;可以使用ActivityLifecycleCallbacks 和 ProcessLifecycleOwner。在Kotlin中&#xff…

实验2-5-3 求平方根序列前N项和

//实验2-5-3 求平方根序列前N项和/*本题要求编写程序&#xff0c; 计算平方根序列123⋯的前N项之和。 可包含头文件math.h&#xff0c;并调用sqrt函数求平方根。*/#include<stdio.h> #include<math.h> int main(){int n0;scanf("%d",&n);//输入Nint …

【Canvas与艺术】三环莫比乌斯圈

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>三环莫比乌斯圈</title><style type"text/css"&g…

测桃花运(算姻缘)的网站系统源码

简介&#xff1a; 站长安装本源码后只要有人在线测算&#xff0c;就可以获得收入哦。是目前市面上最火的变现利器。 本版本无后台&#xff0c;无数据。本版本为开发的逗号联盟接口版本。直接对接逗号联盟&#xff0c;修改ID就可以直接运营收费赚钱。 安装环境&#xff1a;PH…

可以个性化的网盘与相册服务 PDS

可以个性化的网盘与相册服务 PDS 什么是PDS企业版企业网盘团队管理用户管理安全策略企业设置文件设置及其他设置专属登录配置 使用建议企业网盘用户端开发者版体验感受 什么是PDS 在正式开始测评PDS之前&#xff0c;首先来了解一下什么是PDS。PDS 网盘与相册服务&#xff08;D…

Pythonic 的从远程列表中提取分支名称方法

1、问题背景 在 Git 版本控制系统中&#xff0c;我们需要经常使用 git ls-remote 命令来获取远程仓库的分支列表。 这个命令的输出通常包含分支的哈希值和分支名称&#xff0c;就像这样&#xff1a; db6ad7246abf74cb845baa60e6fe45dacf897612 HEAD 1fc347b17201054d8b5b9…

YOLOv8 基于BN层的通道剪枝

YOLOv8 基于BN层的通道剪枝 1. 稀疏约束训练 在损失项中增加对BN层的缩放系数 γ \gamma γ和偏置项 β \beta β的稀疏约束&#xff0c; λ \lambda λ系数越大&#xff0c;稀疏约束越严重 L ∑ ( x , y ) l ( f ( x ) , y ) λ 1 ∑ γ g ( γ ) λ 2 ∑ β g ( β ) L…

华杉研发九学习日记18 集合 泛型

华杉研发九学习日记18 一&#xff0c;集合框架 1.1 集合和数组的区别 集合就是在java中用来保存多个对象的容器 集合是数组的升级版&#xff0c;集合中只能放置对象[object]. 数组: 在java中用来保存多个具有相同数据类型数据的容器 数组弊端&#xff1a; 1.数组只能保存…

2024AICoding公司全景图及评分

AI Coding背景 AI coding 领域的产品和公司在 2024 年开始爆发了&#xff0c;主要涉及技术进步、市场需求和开发者生态系统的变化。 本文会从技术背景&#xff0c;市场需求&#xff0c;生态以及相关评分为大家完整梳理一下相关内容。 底层技术 大规模预训练模型 技术背景&#…

C#使用OPC组件方式和AB的PLC通信

目录 一、PLC硬件配置 1、创建PLC程序 &#xff08;1&#xff09;程序工程选择 &#xff08;2&#xff09;变量和程序 2、配置程序在模拟器中运行 &#xff08;1&#xff09;打开RSLkin Classic &#xff08;2&#xff09;仿真器配置 &#xff08;3&#xff09;PLC程序…

我终于搭建完成了我的个人网站!(仅分享,非教程)

先看看我的个人网站~ https://yaoqx.pages.devhttps://yaoqx.pages.dev 来看看我搭建的过程吧&#xff01; &#xff08;仅分享&#xff0c;非教程&#xff09; 网站技术 前端框架&#xff1a;Astro主题&#xff1a;Frosti代码托管&#xff1a;Github网页部署&#xff1a;Cl…

Vscode ssh Could not establish connection to

错误表现 上午还能正常用vs code连接服务器看代码&#xff0c;中午吃个饭关闭vscode再重新打开输入密码后就提示 Could not establish connection to 然后我用终端敲ssh的命令连接&#xff0c;结果是能正常连接。 解决方法 踩坑1 网上直接搜Could not establish connectio…

浮点数如何存储

一、浮点数存储格式 符号&#xff08;sign&#xff09; s是符号位&#xff0c;1表示负&#xff0c;0表示正阶码&#xff08;exponent&#xff09; E的作用是对浮点数加权&#xff0c;这个权重是2的E次幂尾数&#xff08;significand&#xff09; M是一个二进制小数 二、举例说…

被爬网站用fingerprintjs来对selenium进行反爬,怎么破?

闲暇逛乎的时候&#xff0c;看到了这个问题&#xff1a; Fingerprintjs实际上就是专门用来识别和追踪浏览器的&#xff0c;要应对起来&#xff0c;确实并非易事。那么&#xff0c;我们要如何应对FingerprintJS的唯一标记技术呢&#xff1f; 接下来&#xff0c;我们将一起来探讨…

【自学深度学习梳理2】深度学习基础

一、优化方法 上一篇说到,使用梯度下降进行优化模型参数,可能会卡在局部最小值,或优化方法不合适永远找不到具有最优参数的函数。 1、局部最小值 梯度下降如何工作? 梯度下降是一种优化算法,用于最小化损失函数,即寻找一组模型参数,使得损失函数的值最小(局部最小值…

【Python体验】第五天:目录搜索、数据爬虫(评论区里写作业)

文章目录 目录搜索 os、shutil库数据爬虫 request、re作业&#xff1a;爬取案例的top250电影的关键信息&#xff08;名称、类型、日期&#xff09;&#xff0c;并保存在表格中 目录搜索 os、shutil库 os 模块提供了非常丰富的方法用来处理文件和目录。 os.listdir(path)&#x…