14-10 AIGC 项目生命周期——第一阶段

news2024/11/18 23:47:39

生成式 AI 项目生命周期的整个过程类似于从范围、选择、调整和对齐/协调模型以及应用程序集成开始的顺序依赖过程。流程表明每个步骤都建立在前一步的基础上。有必要了解每个阶段对于项目的成功都至关重要。

下面的流程图重点介绍了生成式 AI 项目生命周期的第一阶段 1 — “范围、选择和预训练”需要启动 GenAI 项目。

1. 范围:定义问题

与任何应用一样,生成式人工智能项目始于一个需要解决的问题。理解问题、通过生成式人工智能找到解决方案以及可衡量的指标构成了成功项目的支柱。法学硕士能够执行许多任务,但它们的能力在很大程度上取决于模型的大小和架构。确定项目旨在通过生成式人工智能实现什么目标。

您是否需要模型能够执行许多不同的任务?包括生成大量文本,或具有高度的能力,或者任务更具体,如命名实体识别,这样您的模型只需要根据要求擅长一项任务。明确对模型的期望可以节省更多时间,也许更重要的是,计算成本

2. 选择:选择型号

范围要求决定了模型的选择。决定是使用自己的模型并从头开始训练它们,还是使用现有的基础模型(称为基础模型 (FM))。AI 社区提供了适合各种任务的各种预训练模型。评估这些模型至关重要,要考虑其性能、可扩展性和与项目的兼容性等因素。GPT、BERT、FLAN T5 是可供使用的强大模型的示例。

选择正确的 LLM 架构

特定任务的最佳 LLM 架构取决于该任务的具体要求。例如,

  • 如果任务需要生成长文本序列,那么基于转换器的 LLM(如 GPT-3 或 BERT)可能是一个不错的选择。
  • 如果任务需要回答问题或理解句子中单词的上下文,那么像 BERT 或 XLNet 这样的模型可能更合适。
  • 如果任务需要总结个人/实体之间的对话,那么像 HuggingFace FLAN T5 这样的模型可能是一个选择。

3. 预训练大型语言模型

大型语言模型 (LLM) 中的预训练是指训练的初始阶段,在此阶段,模型将接触大量未标记的文本数据语料库,以学习语言中固有的模式和结构。预训练通过自监督学习使用大量非结构化文本数据来训练 LLM。

此阶段对于模型形成对语言内的语法、语义和上下文关系的总体理解至关重要。

ParagogerAI训练营 2img.ai

图片来自 DeepLearning.AI

LLM 的架构会影响训练效率和推理效率,即在接受训练后,模型能够多快多高效地得出答案。更复杂的模型可能会表现更好,但它们在生产环境中运行速度可能会更慢,成本也会更高。有几类大型语言模型适用于不同类型的用例:

  • 自动编码模型- 仅编码器 LLM。这些模型通常适用于能够理解语言的任务,例如命名实体识别 (NER)、分类和情感分析。仅编码器模型的示例包括 BERT(来自 Transformer 的双向编码器表示)、RoBERTa(稳健优化的 BERT 预训练方法)。这些模型使用 MLM (掩码语言建模)进行训练,其中输入被随机掩码。训练目标是预测掩码标记以重建原始句子。
  • 自回归模型——仅解码器 LLM。这类模型非常擅长生成语言和内容。一些用例包括故事写作和博客生成。仅解码器架构的示例包括 GPT-3(生成式预训练 Transformer 3)、BLOOM。这些模型使用 CLM(因果语言模型)进行训练,其 训练目标是根据前一个标记序列预测下一个标记。这称为完整语言建模
  • 序列到序列模型——编码器-解码器 LLM 这些模型结合了转换器架构的编码器和解码器组件,以理解和生成内容。这种架构的一些出色用例包括翻译和摘要。编码器-解码器架构的示例包括 T5(文本到文本转换器)、BART。这些模型使用Span 损坏模型进行训练。如果输入标记,这将屏蔽随机序列。训练目标是用添加到词汇表中的唯一标记替换被屏蔽的标记。

选择合适的预训练目标是持​​续研究的一个活跃领域,研究人员不断探索新的目标和组合,以充分发挥 LLM 的潜力。

LLM 预培训的挑战

开发和维护大型语言模型所需的大量资本投入、庞大的数据集、技术专长以及大规模计算基础设施一直是大多数企业进入的障碍。

为了训练大型语言模型(LLM),模型的设计非常重要,因为它决定了需要多少计算能力。ParagogerAI训练营 2img.ai

优化方法:

研究人员使用各种优化方法来处理复杂模型的计算需求。模型优化常用的三种技术是剪枝、量化和拓扑优化。

量化:这涉及降低模型权重和激活的精度,通常从浮点数降低到整数。精度降低为 16 位浮点数(FP16、BFLOAT16 -2 字节)或 8 位整数(INT8 -1 字节),而不是 32 位。

修剪:这涉及减少不需要和不太重要的参数的数量。

拓扑优化:这涉及将大模型中的信息压缩为更小、更高效的模型,以便更快地执行。这被称为模型提炼知识提炼。

结论

在本文中,我们探讨了生成式 AI 项目生命周期,从

  1. 定义问题(范围)
  2. 根据需求和成本选择合适的大型语言模型。
  3. 基本预训练技术
  • 模型架构和预训练目标。
  • 训练前的挑战
  • 提高 LLM 效率和加快执行速度的优化技术。
  • ParagogerAI训练营 2img.ai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1882317.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue项目创建+eslint+Prettier+git提交规范(commitizen+hooks+husk)

# 步骤 1、使用 vue-cli 创建项目 这一小节我们需要创建一个 vue3 的项目,而创建项目的方式依然是通过 vue-cli 进行创建。 不过这里有一点大家需要注意,因为我们需要使用最新的模板,所以请保证你的 vue-cli 的版本在 4.5.13 以上&#xff…

Android 添加LBS辅助定位

1.软件需求: 某Android设备没有sim卡但其支持定位,客户需求为在已有的Android中添加LBS网络定位,用以辅助gps定位。 2.思路分析 首先看到这个需求笔者是比较懵逼的,秉持着客户是上帝的原则,笔者首先先了解了一下什么…

双向广搜——AcWing 190. 字串变换

双向广搜 定义 双向广搜是图搜索算法的一种变体,与传统的单向广搜不同,它同时从起点和终点(或目标状态)开始进行搜索,直到两个搜索的前沿相遇为止。这种方法可以在某些情况下显著减少搜索空间,尤其是在寻…

安装PyTorch详细过程(个人过程仅供参考)

1.安装anaconda 2.创建一个虚拟环境 以上步骤默认已经完毕,毕竟只是记录pytorch的安装过程 3.查看个人电脑CUDA版本 winr 输入cmd 回车 输入指令 nvidia-smi 右上角为该电脑所支持的最高CUDA版本 输入命令 nvcc -V 图中即为该电脑所安装的CUDA版本 记住该版…

为什么安装了SSL证书还是不能HTTPS访问?

即便是正确安装了SSL证书,有时网站仍然无法通过HTTPS正常访问,这背后可能隐藏着多种原因。以下是一些常见的问题及解决方案,帮助您排查并解决这一困扰。 PC点此申请:SSL证书申请_https证书下载-极速签发 注册填写注册码230918&a…

文献解读-长读长测序-第十三期|《PrecisionFDA真相挑战第二版:利用短读长和长读长在难比对区域进行变异检测》

关键词:基因组;长读长测序;基准测试; 文献简介 标题(英文):PrecisionFDA Truth Challenge V2: Calling variants from short and long reads in difficult-to-map regions标题(中文…

零基础光速入门AI绘画,SD保姆攻略

前言 大家好,我是AI绘画咪酱。一名AIGC狂热爱好者,目前正在AI绘画领域进行深入的探索。 我花了一个月时间把SD研究了一遍,秉持着用有趣、易懂的文字让小白也可以零基础光速使用SD(stable diffusion)入门AI绘画&#…

家政小程序的开发,带动市场快速发展,提高家政服务质量

当下生活水平逐渐提高,也增加了年轻人的工作压力,同时老龄化也在日益增加,使得大众对家政的需求日益提高,能力、服务质量高的家政人员能够有效提高大众的生活幸福指数。 但是,传统的家政服务模式存在着效率低、用户与…

Java语法系列 小白入门参考资料 逻辑控制

顺序结构 顾名思义,就是按着从上到下的顺序执行代码 public class Demo {public static void main(String[] args) {System.out.println("aaa");System.out.println("bbb");System.out.println("ccc");} }如果调整代码的书写顺序, …

手撕Transformer!!从每一模块原理讲解到代码实现【超详细!】

文章目录 一、位置编码位置编码的原理代码解释 二、多头注意力三、前馈神经网络(FeedForward)和层归一化(NormLayer)FeedForward 模块代码解析 NormLayer 模块代码解析 四、EncoderEncoder 类EncoderLayer 类前向传播过程 五、Dec…

喜提一等奖!白鲸开源在“创业北京”创业创新大赛海淀区选拔赛决赛表现亮眼

6月25日,第七届“创业北京”创业创新大赛海淀区选拔赛决赛在中关村东升国际科学园成功举办。本次活动由海淀区人力资源和社会保障局、中关村科学城管委会主办,以“创响新时代 共圆中国梦”为主题,活动现场主体赛先进制造赛道和主体赛现代服务…

网络安全在2024好入行吗?

前言 024年的今天,慎重进入网安行业吧,目前来说信息安全方向的就业对于学历的容忍度比软件开发要大得多,还有很多高中被挖过来的大佬。 理由很简单,目前来说,信息安全的圈子人少,985、211院校很多都才建立…

网站提示不安全怎么办

当您访问一个网站时,如果浏览器提示该网站不安全,这通常意味着以下几个问题之一,以及相应的解决办法: 一、未启用HTTPS协议: 解决方法:确保网站启用了HTTPS协议。这意味着您需要为您的网站部署一个有效的…

2024年最适合Python小白的零基础入门教程!

伴随着云计算、大数据、AI等技术的迅速崛起,市场对Python人才的需求和市场人才的匮乏,让长期沉默的Python语言一下子备受众人的关注,再加上简单易学,使得Python一跃成为TIOBE排行榜的第一。 准备学Python或者想学Python的小伙伴们…

1.linux操作系统CPU负载

目录 概述CPU平均负载查看平均负载结束 概述 CPU 使用率 和CPU 平均使用率。 CPU平均负载 单位时间内系统处于 [可运行状态] 和 [不可中断状态] 的平均进程数,就是平均活跃进程数,和CPU使用率并没有直接关系 可运行状态 正在使用CPU或者正等待CPU的进…

ITK-读取/写入图像

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 绪论 在本文中,将介绍如何使用ITK(Insight Segmentation and Registration Toolkit)库来读取…

【毕业一年,聊聊什么】

毕业一年,聊聊什么 一,引子 武汉,大雨连连,大雨如柱,大雨倾盆,任性的,傲娇的,一点没有想停的样子。 下雨天,好适合Emo啊,该我了,请允许。 二&…

Meilisearch 安装和使用教程

如今搜索功能已成为几乎所有应用不可或缺的一部分。无论是电商平台、内容管理系统,还是企业内部知识库,用户都期待能够快速、准确地找到他们需要的信息。然而,传统的搜索解决方案往往面临着诸多挑战:响应速度慢、相关性差、难以适…

分享值得推荐的6大磁力搜索器平台,亲测有效!

昨天晚上,隔壁出租屋的小美私信阿星,问哪里能下载到有趣的资源,比如漫画、影音、学习资料等等。 这直接问到了阿星的强项了!其实网络上,高手和小白之间,只差一个搜索引擎。 今天阿星想和大家分享几款好用…

常用图片处理操作

静态图片文件转base64 import base64 with open(1.png, rb) as f:source f.read() base64_img base64.b64encode(source)base64转静态图片文件 imgdata base64.b64decode(base64_img)# 将图片保存为文件 with open("new.png", wb) as f:f.write(imgdata)PS:这里…