什么是大型语言模型(LLM)?

news2025/2/26 18:58:29

大型语言模型 (LLM) 是一种能够理解和生成人类语言文本的机器学习模型。它们通过分析大量语言数据集来工作。

一、什么是大型语言模型 (LLM)?

大型语言模型 (LLM) 是一种人工智能 (AI) 程序,它可以识别和生成文本以及完成其他任务。LLM 经过了庞大的数据集的训练,因此称之为“大型”。LLM 在机器学习的基础上构建:具体来说,它是一种称为 Transformer 模型的神经网络。

简单地说,LLM 是一个计算机程序,已经为它提供了足够多的示例,使它能够识别和解释人类语言或其他类型的复杂数据。许多 LLM 都是使用从互联网上收集的数据(成千上万甚至数百万 GB 的文本)进行训练的。但是,样本的质量会影响 LLM 学习自然语言的效果,因此 LLM 的程序员可能会使用更精心策划的数据集。

LLM 使用一种称为深度学习的机器学习来了解字符、单词和句子是如何共同发挥作用的。深度学习涉及对非结构化数据进行概率分析,最终使深度学习模型能够在无需人工干预的情况下识别不同内容之间的区别。

接着,在调整后进一步训练 LLM:根据程序员希望它们完成的特定任务进行微调或提示调整,例如解释问题并生成回答,或者将文本从一种语言翻译成另一种语言。

二、LLM 有什么用途?

可以训练 LLM 以执行多种任务。最广为人知的用途之一是将它作为生成式 AI 应用:当为它们提供提示或向它们提出问题时,它们可以生成文本作为回复。例如,公开提供的 LLM ChatGPT 可根据用户输入生成散文、诗歌和其他文本形式。

任何大型复杂数据集都可用于训练 LLM,包括编程语言。有些 LLM 可以帮助程序员编写代码。它们可以根据要求编写函数,或者以一些代码为起点,完成一个程序的编写。LLM 也可用于以下领域:

  • 情绪分析
  • DNA 研究
  • 客户服务
  • 聊天机器人
  • 在线搜索

现实世界中的 LLM 包括 ChatGPT (OpenAI)、Bard (Google)、Llama (Meta) 和 Bing Chat (Microsoft),国内的商量、通义千问、文心一言等。GitHub 的 Copilot 是另一个例子,但它用于编码而不是人类的自然语言。

三、LLM 有哪些优势和局限性?

LLM 的一个主要特点是能够响应不可预测的查询。传统的计算机程序接收使用它接受的语法提供的命令,或者接收用户提供的一组输入中的命令。视频游戏有一组有限的按钮,应用程序有一组有限的用户可以单击或输入的物件,而编程语言则由精确的 if/then 语句组成。

相比之下,LLM 可以响应人类的自然语言,并利用数据分析合理回答非结构化问题或提示。一般的计算机程序不能识别类似于“历史上最伟大的四支放克乐队是哪四支?”这样的提示,而 LLM 可能会列出四支此类乐队作答,并提供令人信服的理由说明为什么他们是最伟大的。

不过,就提供的信息而言,LLM 的可靠性取决于它们获取的数据。如果向它们提供虚假信息,它们就会在回答用户询问时提供虚假信息。LLM 有时也会“产生幻觉”:当它们无法提供准确答案时,它们会制造虚假信息。例如,在 2022 年,新闻媒体 Fast Company 向 ChatGPT 询问
特斯拉公司上一季度的财务状况;虽然 ChatGPT 提供了一篇连贯的新闻文章作为回复,但其中的许多信息都是编造的。

在安全方面,基于 LLM、面向用户的应用程序与其他应用程序一样容易出现错误。还可以通过恶意输入操纵 LLM,使其提供某些类型的响应,而不是其他类型的响应,包括危险或不道德的响应。最后,LLM 的安全问题之一是,用户可能为了提高自己的工作效率而将安全的机密数据上传到 LLM 中。但是,LLM 使用它们接收到的输入来进一步训练它们的模型,但是它们在设计上没有安全保险库功能;它们可能会在响应其他用户的查询时公开机密数据。

四、LLM 如何工作?

4.1 机器学习和深度学习

从根本上说,LLM 是在机器学习的基础上构建的。机器学习是 AI 的一个分支;机器学习是指向一个程序提供大量数据,以训练这个程序如何在没有人工干预的情况下识别数据特征的做法。

LLM 使用称为深度学习的机器学习类型。深度学习模型基本上可以在没有人工干预的情况下自行训练识别区别,尽管通常需要一些人工微调。

深度学习利用概率进行“学习”。例如,在句子 "The quick brown fox jumped over the lazy dog" 中,字母 "e" 和 "o" 最常见,各出现四次。根据这一点,深度学习模型可以(正确)得出结论,这些字符是最有可能出现在英语文本中的字符。

实际上,深度学习模型无法从一句话中得出任何结论。但是,在分析了数以万亿计的句子之后,它可以学到足够的知识来预测如何在逻辑上补全一个不完整的句子,甚至生成它自己的句子。

4.2 神经网络

为了实现这种类型的深度学习,LLM 在神经网络的基础上构建。正如人脑是由相互连接和发送信号的神经元组成一样,人工神经网络(通常简称为“神经网络”)也是由相互连接的网络节点组成的。它们由多个“层”组成:输入层、输出层以及这两个层之间的一个或多个层。各层只有在自己的输出超过某个阈值时,才会相互传递信息。

4.2.1 Transformer 模型

用于 LLM 的特定神经网络称为 Transformer 模型。Transformer 模型能够学习上下文,这对于高度依赖语境的人类语言尤为重要。Transformer 模型使用一种名为自注意力机制的数学技术来检测序列中元素相互之间的微妙关系。这使得它们比其他类型的机器学习更善于理解上下文。例如,这使它们能够理解句子的结尾与开头之间的联系,以及段落中各个句子相互之间的关系。

这使 LLM 能够解释人类语言,即使这些语言含糊不清或定义不明确,以它们以前从未遇到过的组合方式排列,或以新的方式结合上下文。在某种程度上,它们“了解”语义,因为它们可以根据词语和概念的含义将两者联系起来,因为它们已经数百万或数十亿次看到过这些词语和概念以这种方式组合在一起。

图片来源:What are Large Language Models? | Definition from TechTarget

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1528659.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ssh免密登陆更换目标主机后无法连接

在进行hadoop分布式环境搭建时(三台机,master,slave1,slave2),后期slave2系统出现问题,更换新机后,master与slave2文件传输失败: 以为是秘钥过期的问题,更换…

数据结构 之 哈希表习题 力扣oj(附加思路版)

哈希表用法 哈希表&#xff1a;键 值对 键&#xff1a;可以看成数组下标&#xff0c;但是哈希表中的建可以是任意类型的&#xff0c;建不能重复,可以不是连续的 值&#xff1a;可以看成数组中的元素&#xff0c;值可以重复&#xff0c;也可以是任意类型的数据 #include<iost…

GTC 2024大会现场直击!亮点回顾:英伟达如何塑造新工业革命?

会议之眼 快讯 就在北京时间2024年3月19日凌晨4:00-6:00&#xff0c;全球瞩目的英伟达GTC &#xff08;GPU技术大会&#xff09;2024大会在美国加州圣何塞会议中心如期拉开帷幕。这场为期四天的科技盛会以其前沿的人工智能和加速计算技术&#xff0c;吸引了来自世界各地的开发者…

YOLOV1-V9发展历程(1) (V1-V5)

简介 计算机视觉领域包含很多不同的方向&#xff0c;从处理数据的类型上分为图片&#xff0c;视频&#xff0c;点云&#xff0c;在2D图像的任务中再细分就分为单目标任务和多目标任务(如上图&#xff09;YOLO是用于解决多目标检测问题的计算机视觉算法&#xff0c;相比于多阶段…

PHP反序列化--_wakeup()绕过

一、漏洞原理&#xff1a; 二、靶场复现: 进入靶场&#xff0c;分析源代码&#xff1a; <?php error_reporting(0); class secret{var $fileindex.php;public function __construct($file){$this->file$file;}function __destruct(){include_once($this->file);ech…

【C++庖丁解牛】继承的概念及定义 | 继承中的作用域 | 继承与友元继承与静态成员 | 复杂的菱形继承及菱形虚拟继承

&#x1f341;你好&#xff0c;我是 RO-BERRY &#x1f4d7; 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 &#x1f384;感谢你的陪伴与支持 &#xff0c;故事既有了开头&#xff0c;就要画上一个完美的句号&#xff0c;让我们一起加油 目录 1.继承的概念及定义1.1继…

Ant Design 的 Table,设置自动滚动效果,触底返回顶部,悬浮停止滚动, Table的 scrollTo 简单使用。

环境&#xff1a; antdesign 版本号&#xff0c; 5.11 一、实现目标 使用 AntDesign 中 Table的 scrollTo 来设置滚动条的显示位置&#xff0c;达到自动滑动效果。 简单介绍 scrollTo 方法: scrollTo 有三个参数 ({index:number,top:number,key:React.key}), index: 表示…

代码随想录算法训练营第二十五天|● 216.组合总和III ● 17.电话号码的字母组合(JS写法)

216 组合总和Ⅲ 题目链接/文章讲解&#xff1a;https://programmercarl.com/0216.%E7%BB%84%E5%90%88%E6%80%BB%E5%92%8CIII.html 视频讲解&#xff1a;https://www.bilibili.com/video/BV1wg411873x 方法一&#xff1a;自己写的 自己写的&#xff0c;本题和77很像&#xf…

mozilla ctypes用法了解

参考文档&#xff1a;ctypeshttp://udn.realityripple.com/docs/Mozilla/js-ctypes/js-ctypes_reference/ctypes 一、引用 ctypes.jsm方法 Components.utils.import("resource://gre/modules/ctypes.jsm") 二、用法 已知用法1&#xff1a; 结构体的声明ctypes.S…

英特尔生态的深度学习科研环境配置-A770为例

之前发过在Intel A770 GPU安装oneAPI的教程&#xff0c;但那个方法是用于WSL上。总所周知&#xff0c;在WSL使用显卡会有性能损失的。而当初买这台机器的时候我不在场&#xff0c;所以我这几天刚好有空把机器给重装成Ubuntu了。本篇不限于安装oneAPI&#xff0c;因为在英特尔的…

nginx 报Too many open files

nginx 异常报 Too many open files 上周时&#xff0c;nginx已经报 Too many open files 当时把 配置文件调整最大连接65535了&#xff0c;reload 重新加载nginx后不报错了。 cat /proc/14921/limits |grep "Max open file" * soft nofile 65535 * hard nof…

【01】htmlcssgit网络基础知识

一、html&css 防脱发神器 一图胜千言 使用border-box控制尺寸更加直观,因此,很多网站都会加入下面的代码 * {margin: 0;padding: 0;box-sizing: border-box; }颜色的 alpha 通道 颜色的 alpha 通道标识了色彩的透明度,它是一个 0~1 之间的取值,0 标识完全透明,1…

vue2(vue3也可以使用)移动端h5网页实现扫一扫功能

一、效果 可以看调起了我们的摄像头&#xff0c;点击允许过后就打开了扫码界面 二、实现过程 1.安装包 zxing/library 2.构建页面 <template><div class"scan"><div class"video-container"><div class"scan-box">&…

图论03-所有可能路径(Java)

3.所有可能路径 题目描述 给你一个有 n 个节点的 有向无环图&#xff08;DAG&#xff09;&#xff0c;请你找出所有从节点 0 到节点 n-1 的路径并输出&#xff08;不要求按特定顺序&#xff09; graph[i] 是一个从节点 i 可以访问的所有节点的列表&#xff08;即从节点 i 到…

TypeScript(六)条件类型,函数,装饰器

条件类型 TypeScript 中的条件类型是一种高级类型&#xff0c;它使我们根据不同的条件创建更复杂的类型。 TS中的条件类型就是在类型中添加条件分支&#xff0c;以支持更加灵活的泛型 条件类型允许我们根据某个类型的属性是否满足某个条件&#xff0c;来确定最终的类型。 type…

【海贼王的数据航海】排序——冒泡|快速|归并排序|总结

目录 1 -> 交换排序 1.1 -> 冒泡排序 1.1.1 -> 代码实现 1.2 -> 快速排序 1.2.1 -> hoare版本 1.2.2 -> 挖坑法 1.2.3 -> 前后指针法 1.2.4 -> 快速排序(递归版) 1.2.5 -> 快速排序(非递归版) 2 -> 归并排序 2.1 -> 归并排序 2.…

泛微 OA - 根据流程 requestid 获取流程中的附件

泛微 OA - 根据流程 requestid 获取流程中的附件 在泛微 OA 流程中&#xff0c;附件是通过加密上传的&#xff0c;如果在第三方系统想要调用 OA 系统获取 OA 附件&#xff0c;暂时没有很好的方法实现。但是可以在本地进行调用&#xff0c;得到附件 url 地址、附件 id、附件上传…

蓝桥杯练习02随机数生成器

随机数生成器 介绍 实际工作中随机数的使用特别多&#xff0c;比如随机抽奖、随机翻牌。通过随机数还能实现很多有趣的效果&#xff0c;比如随机改变元素的位置或颜色。 本题需要在已提供的基础项目中使用JS知识封装一个函数&#xff0c;该函数可以根据需要&#xff0c;生成指…

01. 【Android教程】系统背景及结构概述

1. Android 的历史 Android 一词的本意指“人形机器人”&#xff0c;安迪•鲁宾 (Andy Rubin) 在 2003 年以此名创办了 Android 公司并开始召集团队研发 Android 系统。后于 2005 年被 Google 收购&#xff0c;安迪•鲁宾随后任 Google 工程部副总裁&#xff0c;继续负责 Andr…

数据可信流通:从运维信任到技术信任

1.数据可信流通概念 "数据可信流通"通常指的是确保数据在不同系统、应用程序或者组织之间的传输和交换过程中的可信性、完整性和安全性。在数据流通的过程中&#xff0c;确保数据的真实性、完整性和保密性是非常重要的&#xff0c;尤其是涉及到敏感信息或者重要数据…