GenAI 的产品:快速行动,但失败

news2025/1/22 19:08:46

2022 年秋季,我正在做一个很酷的项目。是的,你猜对了——使用公司特定的数据对预先训练的 LLM(Bert)进行微调。

然而,很快 ChatGPT 就发布了,并席卷了全世界。既然已经有一门非常强大的 LLM 了,我再去微调它又有什么意义呢?

我一直是 Bert 的忠实粉丝,所以当 ChatGPT 发布时,我也陷入了这种热潮中。我的意思是,谁不会呢?人工智能的前景就像一个闪亮的新玩具,我迫不及待地想玩它。在本文中,我想分享我作为一名(NLP)数据科学家的旅程,他渴望通过 GenAI 产生影响。

2023 年初,当大老板想用这项新技术做点什么时,我开始参与 GenAI 项目。我意识到我是多么幸运,并不是每个高管都愿意探索 GenAI 的前沿。很快,我们就加入了 AzureOpenAI 的用户名单,派对正式开始了 💃。

制作炫酷的演示很容易

使用 OpenAI 模型的方法有 14 亿种,但我需要让它符合公司的技术堆栈和安全策略。

对于一个项目,我必须为 AI 应用程序开发前端解决方案。一周内,我需要学习 10 亿件事情。我必须在 Azure 上部署一个模型端点,以便将其用于我的应用程序。在前端方面,我学会了使用 Streamlit 构建应用程序。这相对容易。仅用一天时间,我就可以在本地启动并运行一个应用程序。

现在应用程序已经构建完成,是时候向世界展示它了。

说实话,这并不容易。我需要确保应用程序遵循公司的安全策略。我们没有部署应用程序的标准工作流程,所以我必须自己弄清楚很多事情。我需要学习如何使用 yml 文件进行 Azure 管道并通过 Azure 的 Web 应用服务部署本地应用程序。我的日子也充满了弄清楚正确的访问管理、将数据存储在 Azure blob 存储中或在 Hive 存储中管理用户数据。这是一个陡峭的、有时令人不知所措的学习曲线。

Langchain、Streamlit、Azure OpenAI 和 Azure 应用服务的组合效果非常好。仅用了一周时间,我就完成了一个演示,可以与大家分享。它看起来很酷,至少乍一看是这样。我得到了赞赏,感觉自己就像一个正在创造影响力的技术奇才。是的,影响力。这就是我渴望的。

然而,这种感觉并没有持续太久。事实上,很快我就意识到,仅仅调用模型和提示是不够的。这只是冰山一角。

原型就是原型。它们可以进行大规模的改进。

很快,问题就来了

第一个问题叫做 Token Limit。

GenAI 的产品:快速行动,但失败

代币限制问题。图片来自作者。

如果您使用 LLM 模型,迟早您会遇到麻烦,因为模型会返回错误,并说您已超出模型的最大上下文长度!您可以争辩说,没问题,GPT-4 提供了 128k 的上下文长度,瞧,问题解决了。

嗯,事实并非如此。

像 GPT 这样的语言模型在长时间对话中保持上下文的方式是通过“上下文压缩”。这意味着,当模型获得超出其上下文窗口大小的新输入时,它必须丢弃最旧的输入以腾出空间给新的输入。在此过程中,它通过其内部状态跟踪先前的上下文,内部状态是丢弃信息的一种压缩摘要。

GenAI 的产品:快速行动,但失败

照片由Unsplash上的Ludovic Charlet拍摄

随着对话时间变长,“上下文凝聚”的质量会下降,导致所谓的上下文漂移,即模型可能开始忘记关键细节或对话的整体思路。

因此,增加上下文长度并不能解决问题。而且在某些时候,你会再次达到令牌限制。

我需要学习如何解决这个问题。这是当务之急,否则人们就无法继续下去。我写了另一篇关于处理模型上下文长度的文章;请随意在这里看看。

幻觉与事实

然后,幻觉与事实发生了冲突。ChatGPT 很神奇,但也没有那么神奇。

人们说你必须写出好的提示,这是千真万确的。有了好的提示,你可以看到输出结果的巨大改进。同时,即使有了你能想到的最好的提示,它仍然会给你错误的答案。不幸的是,当你希望它产生幻觉最少的时候,它却产生了最多的幻觉。当你问难题时,它肯定会出错。

你开始质疑——模型到底理解了什么?如果理解了,它就不会犯这些错误了。

也许现在是时候相信事情并没有那么神奇了。至少不是一直如此。

GenAI 的产品:快速行动,但失败

踏上前往月球的漫长旅程。图片由作者提供。

而且因为 chatGPT 本质上是一个概率模型(我在另一篇文章中已经详细解释过了),它可以预测下一个 token 出现的概率,所以每个 token 预测的一点点错误都会累积起来,等到模型在路径上创建了许多 token 时,它可能就会产生无意义的结果。

这就像坐在火箭里飞往月球。一开始,稍微偏离一点似乎没什么大不了,但经过漫长的旅程,你最终会错过月球并迷失在太空中。

幸运的是,诸如温度和 top_p 采样之类的参数是控制 Chat-GPT 系列模型行为的强大工具,可以在进行 API 调用时使用。通过调整这些参数,您可以实现不同级别的随机性和控制。问题是,尝试设置这些超参数也需要时间。

GenAI 的产品:快速行动,但失败

来源:OpenAI API

可重复性

祝你好运。

对于一个项目,我需要分析各国央行的讲话。输出结果将用于预测模型。对于这个项目,获得稳健且可重复的输出至关重要。

然而,ChatGPT 的输出并不总是可重现的。聊天完成默认是不确定的,这意味着模型输出可能因请求而异。

ChatGPT 建立在 Transformer 架构之上,该架构在 Transformer 层之上包含一个线性层。线性层将 Transformer 层的输出转换为一组分数,以预测句子中的下一个单词/标记。每个可能的下一个标记都会获得一个分数。然后,这些分数通过 SoftMax 函数获得概率。概率最高的单词被选为预测。我还有另一篇文章解释了 ChatGPT 的工作原理,请随意查看。

GenAI 的产品:快速行动,但失败

“turns” 后面的下一个词可能是“back”,也可能是“left”。图片由作者提供。

由于接下来可能出现的单词有很多,因此模型响应的方式具有随机性。

我对这个项目真的心有余悸,因为每次调用模型时,我都不知道我到底会得到什么回报。这让我很害怕。

幸运的是,您可以通过调整某些模型设置(例如温度)来最大限度地降低这种风险。最近,OpenAI 已经实现了种子变量以实现可重复性。开发人员现在可以seed在聊天完成请求中指定参数以实现一致的完成。呼!

这是一个过程。我们需要制作原型、收集反馈、评估和迭代

随着我的 AI 应用程序的部署和测试,我收到了许多反馈。例如,一些用户表示,分块策略的输出似乎效果不佳。该模型往往会跳过重要的细节。另一位用户评论说,该模型的输出波动太大。

GenAI 是一个新事物,我也刚刚开始学习。从这些反馈中,我有了一些提高输出质量的想法。

例如,小样本学习也是一种有用的技术。它使预先训练的人工智能模型能够从少量示例中学习,并将学习应用于新的、未见过的数据。就我而言,这在处理央行演讲中的复杂主题时非常有用。

或者像思维链提示这样的高级提示工程技术似乎没有得到应有的关注。

GenAI 的产品:快速行动,但失败

少量样本学习的例子。

然而,由于我同时在运行多个项目——是的,这应该怪我,我觉得只要添加一个功能,就会有新的功能请求,无论是来自同一个项目还是不同的项目。没有足够的时间来调整我已经开发的东西。这就像一个循环。每次我添加完一个新功能,就会有其他事情发生。

首先,必须解决代币限制问题。

接下来,它需要能够读取更多文件格式。

我们还创建一个实时反馈功能来跟踪模型的性能。

评价怎么办?

或者“您能以格式良好的 PDF 形式返回输出吗?”

人们可以继续要求一个闪亮的新功能,例如“你能让它像 chat.openai.com 一样吗”?

这感觉就像做了一顿大餐,却没有时间坐下来吃。所以这不是一个好主意。

这就像早上 8 点喝一杯龙舌兰酒开始新的一天。—— Bill Inmon

与此同时,我必须向用户解释为什么当前的输出效果不是很好。这并不总是一场轻松的对话。人们想要他们想要的东西。如果你不能满足他们的要求,无论问题是什么都无济于事。

换句话说,我开发了很多个初始版本,但无法对它们进行调整,也没有一个能让产品脱颖而出。我感觉自己正在失去信誉。

GenAI 以用户为中心

人工智能素养并不在于如何微调预先训练的人工智能模型或从头开始构建新的人工智能模型,而在于如何恰当地使用人工智能。

这是因为 GenAI 以用户为中心。

举个例子。我开发了一个 MVP 应用,允许用户上传文档并具有聊天界面。其中一位用户来找我,说该应用不再接收文档了。

原来用户问的是:“你能看到附件吗?”

该模型的回答是:“作为一个人工智能语言模型,我无法看到或感知文档……”

GenAI 的产品:快速行动,但失败

显然,我设置的方式是,用户可以上传文档,然后我从上传的文档中提取文本并将其提取到 chatGPT。也就是说,该模型只能“看到”文本,它无法以传统意义上“看到”附加文档,就像我们人类在屏幕上看到它一样。考虑到我设置该工具的方式,提出了一个错误的问题。

如果您要求提供摘要或回答问题,它可以很好地发挥作用。

我记得我查看过用户对原型的反馈,但反馈并不令人满意。事实上,用户给该工具打了 1 分(满分 5 分),说它无法接收文件。真可悲 🥲。

这就是为什么我认为 GenAI 项目也应该注重教育人们如何使用 AI,从高层次理解 GenAI 的工作原理到不同的提示策略。

GenAI 输出评估

评估 GenAI 模型的输出至关重要且具有挑战性。

在 GenAI 时代之前,您只需将数据分成训练/测试/验证集 – 在训练集上训练模型,并在验证和测试集上评估性能。在监督学习中,我们使用 R 平方、准确率、召回率或 F 平方来评估性能。如何评估大型语言模型?在生成新文本时,基本事实是什么?

如果不评估模型的输出,我们怎么能确信它在做它应该做的事情呢?人类的判断确实起着至关重要的作用,但如果每个人工智能的输出都需要人类的评估,那么我们只不过是用一项手动任务换了另一项,无法实现使用人工智能节省时间的目的。

GenAI 的产品:快速行动,但失败

使用 ROUGE 分数评估模型摘要任务输出的示例。图片由作者提供。

在撰写本文时,我正在尝试不同的评估策略。以文本摘要为例,最常见的指标之一是使用 ROUGE 分数,请参阅语言模型的整体评估。在以后的文章中,我将撰写有关评估 LLM 输出的不同技术的文章。

管理期望——GenAI 并非针对特定问题而量身定制

我记得看过吴恩达 (Andrew Ng) 的一个演讲,他提到快进到今天,人工智能格局已经发生了巨大的变化。

在过去,数据团队需要先构建和部署机器学习模型,然后才能构建和部署人工智能应用程序,这可能需要数月甚至一年的时间。

借助 ChatGPT 或 Bard 等现成的大型语言模型,您可以使用基于提示的 AI 工作流程在很短的时间内部署应用程序,它看起来可能如下所示:

GenAI 的产品:快速行动,但失败

基于提示的 AI 工作流程。图片由作者提供。

恕我直言,我希望这是真的如果你的目标只是展示酷炫的演示和使用人工智能为你的项目获得更多资金的潜力,当然,去做吧。但对于一个真正有影响力的产品?我非常怀疑这是否那么容易。GenAI 模型是通用的,并不针对特定的业务问题进行量身定制。

GenAI 的产品:快速行动,但失败

Hugging face 的快照。模型是为特定任务构建的,例如文本分类、翻译、摘要……等。

过去,机器学习模型一直是为了解决特定问题而构建的。你可以构建推荐系统,推荐在亚马逊上购买哪些产品或在 Netflix 上观看哪些电影。自 2018 年 Bert 首次开发以来,语言模型主要用于特定任务,并且它们在这些狭窄的任务中表现良好。例如,你总是需要针对特定​​任务(例如 POS 标记、问答或情绪分析)微调预先训练的通用 Bert 模型。例如,如果我微调一个专门用于理解可持续性主题的 BERT 模型,我不会期望它是理解金融或法律文本的专家。

鉴于人工智能行业的炒作,期望管理是关键。

商业经验

有一件事我可以肯定地说,用“总结文档”这样的标准提示来调用 OpenAI 的模型不足以构建最终产品。

像 ChatGPT 这样的预训练 GenAI 模型是通用模型,可以做很多事情。但是,它们并不是针对特定业务问题量身定制的。如果您想要一款能够改变业务的最终产品,那么GenAI 必须被视为一个真正的项目。它必须首先从了解痛点开始,并针对您期望该产品带来什么以及您愿意投入的资源设定明确的目标。

GenAI 项目需要合适的人才才能取得成功。它不仅需要一位有远见卓识、能洞察 GenAI 潜力的领导者,还需要一支集多种技能于一身的团队。它需要了解业务用户的痛点和需求。它需要了解模型工作原理的数据科学家、机器学习工程师/云平台工程师和 IT 故障排除人员来帮助管理、部署和维护 AI 应用程序。显然,它需要风险人员的参与,以减轻潜在风险。

为实验设定时间限制。分配一个固定的时间段来探索规定的时间范围内的 AI 功能。制作原型、收集反馈、评估和迭代。这种方法有助于明确实验结束时要做出的决定。

我想以阿瑟·克拉克的一句话作为结束语:

当一位杰出但年长的科学家说某事是可能的,他几乎肯定是对的。当他说某事是不可能的,他很可能是错的。

GenAI 的产品:快速行动,但失败

话虽如此,我不会押注人工智能会失败。我认为这样做是不明智的。就像所有成熟的职业一样,一开始,每个职业都曾不成熟。人工智能也是如此。但我们生活在一个变革的时代。在过去十年中,我们看到深度学习取得了许多突破,而且这种变革不会很快停止。每隔几年,就会有人发明一些疯狂的东西,让你完全重新考虑什么是可能的。老实说,我对 ChatGPT 或 Bard 感到非常高兴。我认为他们很棒。关键问题不是是否应该接受人工智能,而是如何接受。由于 GenAI 是一个新事物,我们仍需要解决许多不确定因素。GenAI 方法应该支持逐步采用该技术,同时最大限度地降低风险并促进学习。

 欢迎前往我们的公众号,资讯

创作不易,觉得不错的话,点个赞吧!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2066665.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

支持AI智能搜索的知识库管理系统有哪些?分享4个软件

引言 在数字化时代,知识的获取、管理和利用已成为企业竞争力的重要组成部分。随着信息量的爆炸性增长,如何快速、准确地从海量数据中检索出有价值的知识,成为企业面临的一大挑战。支持AI智能搜索的知识库管理系统能够快速准确地检索信息&…

【前端】vue监视属性和计算属性对比

首先分开讲解各个属性的作用。 1.计算属性 作用:用来计算出来一个值,这个值调用的时候不需要加括号,会根据依赖进行缓存,依赖不变,computed的值不会重新计算。 const vm new Vue({el:#root,data:{lastName:张,firstNa…

严重腰椎滑脱、无法走路,江山邦尔骨科医院机器人辅助手术为患者完美复位

8月8日上午,53岁的李清(化名)扶着腰、跛脚走进江山邦尔骨科医院。接诊他的,是江山邦尔骨科医院脊柱科的林科院长。 李清和林院长说,自己已有长达两年的腰痛史,最近还伴随右腿麻木及跛行的症状,严…

深度解析上海我店 三年突破一百亿销售额!

在当今数字化时代的大潮中,消费模式正经历着翻天覆地的变革。上海我店网络科技有限公司(简称“我店”),凭借其创新的“互联网实体终端”融合商业模式与独特的绿色积分体系,在消费市场中异军突起,成为引领行…

ClkLog常见问题-埋点集成篇Sec. 1

本篇主要解答ClkLog使用过程中【埋点集成】阶段的常见问题。 1.【指标项数据统计】 问:数据概览无法看到数据。 答:如果数据概览所有指标项都没有数据,则需要先检查埋点数据是否接收成功;如果只是会话相关数据(访问次数…

缺陷检测之Anomalib

缺陷检测的现状 工业缺陷数据有一个比较显著的特征:样本不平衡。绝大部分采集得到的工业数据都是没有缺陷的,这样一来,正样本的数据在模型训练中根本没有起到作用,负样本又太少,很难训练得到有效的模型。使用有监督学…

六西格玛与5S管理体系并行落地,实现生产事件精益管理

在现代制造业中,六西格玛管理和5S管理体系是提升生产效率和质量控制的重要工具。六西格玛以其严格的数据分析方法帮助企业减少过程中的变异和缺陷,而5S管理则通过优化工作环境和流程,确保生产线的整洁、有序和高效。如何将这两大管理体系成功…

wpf livechart 绘制笛卡尔曲线

先上图&#xff1a; 代码部分&#xff1a; <GroupBox Header"各生产线生产量趋势"><Grid><Grid.RowDefinitions><RowDefinition Height"45"/><RowDefinition Height"auto"/><RowDefinition/></Grid.RowD…

第R1周: RNN-心脏病预测

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 一、什么是RNN RNN&#xff08;Recurrent Neural Network&#xff09;是一种特殊的神经网络&#xff0c;它能够处理序列数据&#xff0c;如时间序列、文本序列…

MedGraphRAG:医学版 GraphRAG

MedGraphRAG&#xff1a;医学版 GraphRAG 提出我的解法思路 MedGraphRAG 大纲解法大纲 解法拆解U-retrieve 双向检索 分析性关联图创意视角MedGraphRAG 对比 传统知识图谱大模型现在医疗知识图谱的问题MedGraphRAG的三层层级图结构&#xff0c;能不能让普通的医疗知识图谱&…

线程——函数式创建线程threading模块,继承式创建线程,Lock对象解决多线程不安全问题,线程模型中的生产者消费者模式

调度程序内的多任务使用多进程&#xff0c;调度一个进程内的多任务使用多线程 函数式创建线程的方式threading模块 在Python中&#xff0c;创建线程主要依赖于threading模块。 使用threading模块中的Thread类&#xff0c;你可以很容易地基于函数模式创建线程。基本步骤包括&…

Linux | 文件描述符fd详解及重定向技术的应用

多谢梅花&#xff0c;伴我微吟。 - 《高阳台除夜》(韩疁) 2024.8.23 目录 1、文件描述符fd 文件操作符概念(简单带过) 重点&#xff1a;如何理解文件操作符使得系统实现了设备无关性&#xff1f;&#xff08;使得操作系统无需关心具体的硬件细节&#xff09; 示例代码:标准输入…

SAP BW:QUERY数据结果写入ADSO

作者 idan lian 如需转载备注出处 如果对你有帮助&#xff0c;请点赞收藏~~~ 需求背景 客户基于QUERY进行报表展示&#xff0c;现需迁移到永洪报表平台&#xff0c;query中的变量参数&#xff0c;公式等无法直接生成视图&#xff0c;query相对复杂&#xff0c;不想直接在视图…

流动会场:便捷、经济与声学效果的理想融合—轻空间

在现代活动策划中&#xff0c;选择合适的场地至关重要。流动会场作为一种新型移动空间&#xff0c;不仅具备便捷性和高性价比&#xff0c;还以其优异的声学效果&#xff0c;成为各类会议、展览、演出等活动的理想选择。 便捷安装&#xff0c;快速搭建 流动会场的模块化设计使其…

P-One如何测试一个场景集包含多个接口

P-One是泽众软件自主研发的一站式性能测试平台&#xff0c;集管理、设计、压测、监控以及分析于一体的全方位性能测试解决方案&#xff0c;适用于各种非功能测试场景&#xff1a;压力测试、负载测试、稳定性测试、可靠性测试、容量测试等。 在实际业务场景中&#xff0c;如电商…

springsecurity 在web中如何获取用户信息(后端/前端)

一、SecurityContextHolder 是什么 是一个安全的上下文对象&#xff0c;用于获取经过身份验证的用户。 二、SecurityContextHolder 是何时被创建的 当我们经过表单UsernamePasswordAuthenticationFilter 过滤器后&#xff0c;会回调父类的AbstractAuthenticationProcessingFilt…

华为自研仓颉编程语言测试版上线,计划持续到10月21号

现如今&#xff0c;编程语言作为构建软件世界的基石&#xff0c;其重要性不言而喻。 而华为&#xff0c;作为全球领先的信息与通信技术&#xff08;ICT&#xff09;解决方案提供商&#xff0c;其在技术创新上的每一步都备受瞩目。最近&#xff0c;华为再次成为焦点&#xff0c…

OpenCompass 评测 InternLM-1.8B 实践

1. 环境安装 conda create -n opencompass python3.10 conda activate opencompass conda install pytorch2.1.2 torchvision0.16.2 torchaudio2.1.2 pytorch-cuda12.1 -c pytorch -c nvidia -y# 注意&#xff1a;一定要先 cd /root cd /root git clone -b 0.2.4 https://gith…

系统编程-lvgl

带界面的MP3播放器 -- lvgl 目录 带界面的MP3播放器 -- lvgl 一、什么是lvgl&#xff1f; 二、简单使用lvgl 在工程中编写代码 实现带界面的mp3播放器 main.c events_init.c events_init.h 补充1&#xff1a;glob函数 补充2&#xff1a;atexit函数 一、什么是lvgl&a…

GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 挑战控制工程的新领域

介绍 论文地址&#xff1a;https://arxiv.org/abs/2404.03647 近年来&#xff0c;GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 等大规模语言模型&#xff08;LLM&#xff09;迅速发展&#xff0c;展示了它们解决复杂问题的能力。LLM 的这些发展在多个领域都有潜在的应用前景。…