翻译: 大语言模型LLMs能做什么和不能做什么 保存笔记What LLMs can and cannot do

news2025/1/19 20:36:08

在这里插入图片描述
生成式 AI 是一项惊人的技术,但它并非万能。在这个视频中,我们将仔细看看大型语言模型(LLM)能做什么,不能做什么。我们将从我发现的一个有用的心理模型开始,了解它能做什么,然后一起看看 LLM 的一些具体限制。我发现理解这些限制可以降低你在尝试使用它们做它们不擅长的事情时被绊倒的机会,所以让我们深入了解一下。如果你想弄清楚引导 LLM 能做什么,这里有一个问题,我发现它提供了一个有用的心理框架。那就是我会问自己,一个刚毕业的大学生,只遵循提示中的指令,能完成你想要的任务吗?例如,一个刚毕业的大学生能遵循指令阅读一封电子邮件来判断它是否是投诉吗?嗯,我认为一个刚毕业的大学生可能做得到,LLM 也能做得相当好。或者,一个刚毕业的大学生能阅读一篇餐馆评论来判断它是正面还是负面情绪吗?我认为他们也能做得很好,LLM 也是如此。

在这里插入图片描述
这是另一个例子,一个刚毕业的大学生能在没有关于首席运营官或你的公司的任何信息的情况下撰写新闻稿吗?嗯,这个刚毕业的大学生刚从大学毕业。他们只是刚刚认识你,对你或你的业务一无所知,所以他们最好能做的可能是写一个非常通用的、不太令人满意的新闻稿,就像这样。

在这里插入图片描述
但另一方面,如果你给他们更多关于你的业务和首席运营官的背景信息,那么我们可以问,这个刚毕业的大学生在给定基本相关背景的情况下能写新闻稿吗?我认为他们可能做得相当好,大型语言模型也是如此。

在这里插入图片描述

当你设想 LLM 做很多一个刚毕业的大学生可能做的事情时,想象这个刚毕业的大学生具有他们所知道的大量背景知识,互联网上的大量一般知识。但他们必须在没有访问网络搜索引擎的情况下完成这个任务,他们对你或你的业务一无所知。为了清晰,这个心理模型思维实验中,刚毕业的大学生必须在没有针对公司或你的业务的特定培训的情况下完成任务。而且,每次你引导你的 LLM 时,LLM 实际上不会记住之前的对话。因此,就好像你每次都得到一个不同的刚毕业的大学生来完成每个任务,所以你无法随着时间训练他们了解你的业务的细节或你希望他们写作的风格。这个关于刚毕业的大学生能做什么的经验法则是一个不完美的经验法则,有些大学毕业生能做的事情 LLM 不能做,反之亦然。但我发现这是一个思考 LLM 能做什么和不能做什么的有用起点。

虽然我们在这张幻灯片上专注于引导 LLM 能做的事情,但下周当我们谈论生成式 AI 项目时,我们将讨论一些稍微更强大的技术,可能能够扩展你能用生成式 AI 做的事情,超出这个刚毕业的大学生的概念。
在这里插入图片描述

现在,让我们来看看 LLM 的一些具体限制。首先是知识截止点。LLM 对世界的了解在其训练时就被冻结了。更准确地说,一个在 2022 年 1 月之前抓取互联网数据训练的模型,将不会有关于更近期事件的信息。因此,如果你问这样一个模型,2022 年最卖座的电影是什么?它会说它不知道。即使现在我们早已过了 2022 年,我们知道最卖座的电影是《阿凡达:水之道》。

在这里插入图片描述

大约在 2023 年 7 月,有研究室声称发现了一种名为 LK-99 的室温超导体。你可能在一些新闻中看到了这张照片,这个说法后来被证明并不完全正确。但如果你问一个 LLM 关于 LK-99 的问题,即使它在新闻中被广泛报道,如果 LLM 只从 2022 年 1 月之前的互联网文本中学习,它就不会知道这件事。所以这就是所谓的知识截止点,LLM 只知道到某个时刻为止的世界。当它被训练时,或者互联网文本最后一次被下载用于 LLM 的训练时。

在这里插入图片描述

LLM 的第二个限制是它们有时会编造事情,我们称之为幻觉。我发现,如果我让 LLM 给我一些历史上著名人物的引语,它经常会编造引语。例如,如果你让它给出莎士比亚写的关于碧昂斯的三个引语。由于莎士比亚早在碧昂斯之前就已经去世,我不认为莎士比亚对碧昂斯说过任何话。但 LLM 会自信地给你回复一些引语,比如她的声音像太阳一样照耀,或者全场向女王致敬,她是最值得爱的。所以这些是幻想的莎士比亚式引语。

在这里插入图片描述

或者,如果你让它列出在加利福尼亚审理的关于 AI 的法庭案件,它可能会给出听起来很权威的答案,就像这样。在这种情况下,第一个案例是真实的,确实有 Waymo 诉 Uber 一案,但我无法找到 Ingersoll 诉 Chevron 一案,所以第二个案例是幻想的。有时 LLM 可以以非常自信、权威的语气编造事情。这可能会误导人们认为这个编造的事情可能是真实的。幻觉可能会带来严重的后果。有一位律师不幸地使用 ChatGPT 生成了一个法律案件的文本,并实际上提交给了法庭,他并不知道他提交给法庭的是一个充满编造案件的非法文件。在这个《纽约时报》的标题中,我们看到了这个让人尴尬的法庭听证会。

依赖人工智能的律师表示,她没有意识到聊天机器人可能会误导她,而这位特定的律师因为提交了包含虚构内容的联合诉讼文件而受到了处罚。

在这里插入图片描述
因此,如果你要将其用于具有实际后果的文件,了解其限制是很重要的。LLM 也有一个技术限制,即输入长度,也就是提示的长度是有限的,它能生成的文本的输出长度也是有限的。许多 LLM 最多只能接受几千个词的提示,因此你可以给它的上下文总量是有限的。所以,如果你让它总结一篇论文,而论文的长度远超过这个输入长度限制,LLM 可能会拒绝处理该输入。在这种情况下,你可能必须一次给它论文的一部分,并要求它一次总结论文的一部分。

在这里插入图片描述
或者有时你也可以找到一个输入限制长度更长的 LLM,有些可以接受多达数万个词。从技术上讲,LLM 对所谓的上下文长度有限制,而上下文长度实际上是对总输入+输出大小的限制。

在这里插入图片描述

当我使用 LLM 时,我很少让它生成如此多的输出以至于真正遇到输出长度的限制。但如果我有许多许多千字的上下文想给它,我有时确实会遇到输入长度的限制。

在这里插入图片描述
最后,生成式 AI 的一个主要限制是它们目前对结构化数据处理不好。所谓的结构化数据,我指的是表格数据,像你可能会存储在 Excel 或 Google 表格中的那种数据。例如,这里有一个带有房屋大小(平方英尺)和房价数据的房价表。如果你将所有这些数字输入到 LLM,然后问它,我有一栋 1,000 平方英尺的房子,你认为合适的价格是多少?LLM 在这方面并不擅长,相反,如果你把大小称为输入 A,价格称为输出 B,那么监督学习将是一种更好的技术,用以估算价格作为大小的函数。

这是另一个结构化数据的例子,表格数据显示不同访客可能访问你的网站的时间,你向他们提供产品的价格,以及他们是否购买了它。同样,监督学习将是一种比尝试将所有这些时间、价格和购买信息复制粘贴到大型语言模型的提示中更好的技术。

在这里插入图片描述

与结构化数据相比,生成式 AI 更适合处理非结构化数据。结构化数据指的是你会存储在电子表格中的表格数据,而非结构化数据指的是文本、图像、音频、视频。生成式 AI 确实适用于所有这些类型的数据,尽管影响最大,这就是为什么我们在这门课程中主要关注文本数据。

在这里插入图片描述
最后,大型语言模型可能会偏见输出,有时也可能输出有害或其他有害的言论。例如,大型语言模型是在互联网上的文本上训练的。不幸的是,互联网上的文本可能反映了社会中存在的偏见。所以如果你让一个 LLM 完成句子,外科医生走到停车场拿出了,LLM 可能会输出他的车钥匙,但你会说护士走到停车场拿出了,它可能会说她的手机。所以

在这种情况下,LLM 假设外科医生是男性,护士是女性,而我们清楚地知道外科医生和护士可以是任何性别。因此,如果你在可能导致此类偏见带来伤害的应用中使用 LLM,我会小心使用我们的提示方式和应用 LLM,以确保我们不会助长这种不受欢迎的偏见。最后,有些 LLM 有时也会输出有毒或其他有害的言论。例如,有些 LLM 有时会教人们如何做不受欢迎的,有时甚至是非法的行为。幸运的是,所有主要的大型语言供应商一直在努力提高这些模型的安全性,因此大多数模型随着时间的推移变得更加安全。如果你使用主要 LLM 供应商的网络界面,实际上随着时间的推移变得越来越难让它们输出这些类型的有害言论。所以这就总结了引导 LLM 能做和不能做的事情。正如我提到的,下周我们将看一些克服这些限制的技术,使 LLM 能做的事情更广泛、更强大。但首先,让我们看一些关于引导 LLM 的技巧。

参考

https://www.coursera.org/learn/generative-ai-for-everyone/lecture/VYXx5/what-llms-can-and-cannot-do

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1290682.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

webrtc网之sip转webrtc

OpenSIP是一个开源的SIP(Session Initiation Protocol)服务器,它提供了一个可扩展的基础架构,用于建立、终止和管理VoIP(Voice over IP)通信会话。SIP是一种通信协议,用于建立、修改和终止多媒体…

如何实现同一画面显示不同的2个视频

有时候我们想将2个视频拼接在一起,让这2个视频并排或上下显示,以在同一屏幕上同时播放,这样可以进行视频里面内容的对比或者引起他人的注意力。 如果您想创作这种分屏的视频,将2个或者多个不同的视频放在一个屏幕上,是…

提取B站视频

1、将视频链接粘贴到下面的网站,下载视频到本地。 贝贝BiliBili - B站视频下载 2、使用剪映打开视频,导入视频,导出字幕文件SRT 剪映专业版-全能易用的桌面端剪辑软件-轻而易剪 上演大幕 3、上传SRT文件,解析出来即可 it365 字…

串口程序(1)-接收多个字节程序设计

数据寄存器 关键的标志位 通过该宏定义可以开启对应的串口中断,之前用该宏定义代替标准库函数USART_ITConfig(USART1, USART_IT_RXNE, ENABLE); //使能接收中断 HAL库程序 1.串口发送程序 HAL库串口发送一个/一组数据是很简单的,可以直接调用HAL_UART…

【9】PyQt对话框

目录 1. QMessageBox 2. QIputDialog 对话框是为了更好地实现人与程序的交互 对话框主要是完成特定场景下的功能,比如删除确认等 QDialog的子类有QMessageBox、QFileDialog、QFontDialog、QInputDialog等 1. QMessageBox QMessageBox是普通的对话框 代码示例: …

什么是数据清洗、特征工程、数据可视化、数据挖掘与建模?

1.1什么是数据清洗、特征工程、数据可视化、数据挖掘与建模? 视频为《Python数据科学应用从入门到精通》张甜 杨维忠 清华大学出版社一书的随书赠送视频讲解1.1节内容。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。内容涵…

【Openstack Train】十六、swift安装

OpenStack Swift是一个分布式对象存储系统,它可以为大规模的数据存储提供高可用性、可扩展性和数据安全性。Swift是OpenStack的一个核心组件,它允许用户将大量的数据存储在云上,并且可以随时访问、检索和管理这些数据。 Swift的设计目标是为了…

深入理解Sentinel系列-1.初识Sentinel

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家📕系列专栏:Spring源码、JUC源码、Kafka原理、分布式技术原理🔥如果感觉博主的文章还不错的话&#xff…

搜维尔科技:Varjo如何提高汽车设计和驾驶测试的生产力

增强和虚拟现实技术有助于提高汽车、航空航天、工业生产等各个领域的工人生产力。尽管这些应用程序的上下文通常相当具体,但其中许多用例的某些方面是通用的。 在本文中,我们将具体探讨基于LP-RESEARCH的LPVR操作系统的 Varjo头戴式显示器的姿态跟踪主题…

linux虚拟机Virtualbox的下载安装及vagrant镜像下载安装

Virtualbox下载安装以及创建及简单使用一个虚拟机 1.开启电脑cpu虚拟机 以戴尔G3为例 找到电脑设置–>更新与安全–>恢复 这个步骤也可以在电脑开机时一直按键esc(或者F1、或者F2、或者deleete)都可以进入BIOS 进入BIOS 完成以上步骤就可以开启电脑cpu虚拟机了 …

Django回顾 - 6 Ajax

【1】Ajax 定义: 异步Javscript和XML 作用: Javascript语言与服务器(django)进行异步交互,传输的数据为XML(当然,传输的数据不只是XML,现在更多使用json数据) 同步交互和异步交互: 1、同步交互&…

Word文件设置了只读模式,为什么还能编辑?

Word文档设置了只读模式,为什么还可以编辑呢?,不过当我们进行保存的时候会发现,word提示需要重命名并选择新路径才能够保存,是因为什么呢?今天我们学习一下如何解决问题。 这种操作,即使可以编辑…

香港科技大学广州|机器人与自主系统学域博士招生宣讲会—北京专场!!!(暨全额奖学金政策)

在机器人和自主系统领域实现全球卓越—机器人与自主系统学域 硬核科研实验室,浓厚创新产学研氛围! 教授亲临现场,面对面答疑解惑助攻申请! 一经录取,享全额奖学金1.5万/月! 时间:2023年12月09日…

华为配置流量抑制示例

如拓扑图所示,SwitchA作为二层网络到三层路由器的衔接点,需要限制二层网络转发的广播、未知组播和未知单播报文,防止产生广播风暴,同时限制二三层网络转发的已知组播和已知单播报文,防止大流量冲击。 配置思路 用如下…

vue中实现数字+英文字母组合键盘

完整代码 <template><div class"login"><div click"setFileClick">欢迎使用员工自助终端</div><el-dialog title"初始化设置文件打印消耗品配置密码" :visible.sync"dialogSetFile" width"600px&quo…

数据库原理: 笛卡儿积

笛卡儿积&#xff08;Cartesian Product&#xff09;是集合论中的一个概念&#xff0c;也在数据库中的查询操作中经常使用。笛卡儿积是指两个集合&#xff08;或更多集合&#xff09;之间所有可能的组合。如果有两个集合A和B&#xff0c;它们的笛卡儿积记作A B&#xff0c;表示…

DevExpress WinForms Pivot Grid组件,一个类似Excel的数据透视表控件(一)

界面控件DevExpress WinForms的Pivot Grid组件是一个类似Excel的数据透视表控件&#xff0c;用于多维(OLAP)数据分析和跨选项卡报表。众多的布局自定义选项使您可以完全控制其UI&#xff0c;无与伦比的以用户为中心的功能使其易于部署。 DevExpress WinForms有180组件和UI库&a…

MongoDB知识总结

这里写自定义目录标题 MongoDB基本介绍MongoDB基本操作数据库相关集合相关增删改查 MongoDB基本介绍 简单介绍 MongoDB是一个基于分布式文件存储的数据库。由C语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产…

C#图像处理OpenCV开发指南(CVStar,07)——通用滤波(Filter2D)的实例代码

1 函数定义 void Filter2D (Mat src, Mat dst, int ddepth, InputArray kernel, Point anchor Point(-1,-1), double delta 0, int borderType BORDER_DEFAULT ) 1.1 原型 #include <opencv2/imgproc.hpp> Convolves an image wit…

nodejs+vue+微信小程序+python+PHP新闻发布系统的设计与实现-计算机毕业设计推荐

根据现实需要&#xff0c;此系统我们设计出一下功能&#xff0c;主要有以下功能模板。 &#xff08;1&#xff09;新闻发布系统前台&#xff1a;首页、时事新闻、公告资讯、个人中心。 &#xff08;2&#xff09;管理员功能&#xff1a;首页、个人中心、用户管理、新闻分类管理…