03.生成式学习的策略与工具

news2025/1/21 8:46:50

目录

  • 生成式学习的两种策略
    • 生成的物件介绍
      • 文句
      • 影像
      • 语音
    • 策略一:各个击破(Autoregressive (AR) model
    • 策略二:一次到位(Non-autoregressive (NAR) model)
    • 二者的比较
    • 其他策略
      • 二合一
      • 多次到位
  • AIGC工具
    • New Bing
    • WebGPT
      • WebGPT原理:搜索引擎+文字接龙
      • WebGPT的训练
    • Toolformer
      • 生成训练数据

部分截图来自原课程视频《2023李宏毅最新生成式AI教程》,B站自行搜索

本节对应两个视频。

生成式学习的两种策略

生成的物件介绍

文句

文句最小单位是Token,在中文中指字,英文中指Word piece,例如单词unbelievable的token为:un believ able
英文为什么不用单词作为token?
因为通过之前的学习我们知道,AIGC在微观上来看是一个分类问题,因此我们需要为模型提供所有可能的分类,而英语单词理论上来讲是无穷多的(因为里面有各种专有名词、人名、地名等),只能用更小的Word piece来对英文进行分类。

影像

影像由像素组成
谷歌的Imagen Video例子:
A teddy bear washing dishes.
在这里插入图片描述
A bunch of autumn leaves falling on a calm lake to form the text ‘Imagen Video’. Smooth.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

语音

语言由采样点组成,例如一个16k采样率的声音信号,每秒有1.6w个采样点。
这里是语音生成不再是简单的将文字转成语音,而是还可以指定语调,例如:
在这里插入图片描述
腾讯出品:
http://dongchaoyang.top/InstructTTS/

还可以直接生成指定的声音,例如:
Two space shuttles are fighting in the space.

还有生成海的声音,当然我们不知道如何描述海的声音,因此先找ChatGPT先生成描述:
Describe the sound of the ocean
ChatGPT: The steady crashing of waves against the shore,high fidelity, the whooshing sound of water receding back into the ocean, the sound of seagulls and other coastal birds, and the distant sound of ships or boats.

当然还有比较有意思的,生成三章不同环境的音效:
A man is speaking in a huge room.
A man is speaking in a small room.
A man is speaking in a studio.
这里man的语言当然是我们听不懂的,如果这里的例子改为:
A man is speaking Cantonese in a huge room.

策略一:各个击破(Autoregressive (AR) model


一次生成一个部分,对于文字就是一次生成一个字,对于图像则是一次生成一个像素。
在这里插入图片描述
之前的课程里面就有用VAE一次生成一个像素的方式生成宝可梦的例子:https://blog.csdn.net/oldmao_2001/article/details/104023892

策略二:一次到位(Non-autoregressive (NAR) model)

一次将所有物件产生出来。文字就是一次把所有token都生成,图像就是把所有像素都生成。
由于物件是一次生成的,那模型如何知道停止输出呢?
第一种方式生成固定长度的结果,例如下图中的上半部分,当然如果在生成过程中有结束符号[END],则后面的内容可以直接忽略。
在这里插入图片描述
第二种方式是先生成一个数字,例如上图中的下半部分

二者的比较

直接上结论:

ARNAR
速度
质量
应用文字图像

AR速度慢,因为每个字/像素都要等待前面一个字/像素生成后才能生成;
NAR 速度快,而且可以加上并行计算。
至于生成质量,看下图就可以知道了:
在这里插入图片描述
一次到位在采样过程中无法考虑上下文关系,因此会得到怪异的结果。

其他策略

二合一

早期在16年曾经有个wavenet,一次生成一个采样点,使用各个击破的方式来生成语音,由于采样点数量太大,因此生成速度非常慢。因此,将语音合成分成两个阶段:
在这里插入图片描述

多次到位

每次产生比较模糊的图片,然逐渐清晰:
在这里插入图片描述
这也是Diffusion Model的思想。

AIGC工具

New Bing

微软的bing,貌似国内无法使用,需要科学上网后,登录微软账号就可以在左上角的聊天按钮中启动对话
在这里插入图片描述
与ChatGPT不一样的是,New Bing会联网,例如:
在这里插入图片描述
可以看到回答中标注出了从哪个网页中找到的内容。
联网过程中:
何时进行联网由模型自己决定,同一个问题可以联网也可能不联网,表现出一定随机性。
一个问题中会对多个专有名词进行联网查询。
即使是联网给出结果也不一定是事实。

New Bing+官方介绍有大概写了她的构架(普罗米修斯Prometheus):
在这里插入图片描述
微软把用网络增强生成式模型的技术称为:Bing grounding technique
这与现有的WebGPT模型相似:
在这里插入图片描述

WebGPT

WebGPT原理:搜索引擎+文字接龙

以下面问题为例:
高雄过去有哪些名称?
先会判断是否要进行网络搜索,如果要则会先生成一个标志(蓝色长方形),并生成要搜索的关键句,最后以[END]结束。
在这里插入图片描述
得到结果:
在这里插入图片描述
模型会生成另外一个标志(绿色长方形),表示要选择第几个搜索结果:
在这里插入图片描述
得到:
在这里插入图片描述
在实作上,模型不会读取整个网页,而是选择其中某个段落而已。
模型会生成第三个标志(橙色长方形),将上面搜索得到的具体结果收藏进来。
在这里插入图片描述
以上步骤可以执行多次,因为搜索的关键句有多种表达方式,例如:
在这里插入图片描述
搜索完毕后,模型会生成第四个标志(浅蓝色长方形),开始进入回答,将收藏的内容拿出来,开始文字接龙:
在这里插入图片描述

最后得到的结果如下:
在这里插入图片描述

WebGPT的训练

这里有收集人类查询的步骤:
在这里插入图片描述
从图中可以看到,最上面会先判断这个搜索语句是不是有意义的,如果有,则会进入到下面的搜索框。人会根据搜索结果选择需要引用的链接(可以进行多次),完成后点右下角的按钮表示完成搜索进入生成答案环节。

整个过程如下图:先是基于GPT-3进行预训练,然后加入人工监督学习,学习内容就是上面的图,最后加入RL,减少人工学习的复杂度。

在这里插入图片描述

Toolformer

原理和WebGPT其实差不多,但是这个模型利用的不仅仅是网络搜索,还加上了计算器,翻译器等
在这里插入图片描述
这里使用的工具比较多,很难像WebGPT一样单纯提供接口来使用人工监督的方式来生成训练资料。解决方式有两种:

生成训练数据

法一:利用语言模型生成
对语言模型下如下指令:
Your task is to add calls to a Question Answering API to a piece of text. The questions should help you get information required to complete the text. You can call the API by writing “[QA(question)]” where “question” is the question you want to ask. Here are some examples of API calls.
这里使用中括号来表示要调用的QA API,下面是例子:
在这里插入图片描述
在这里插入图片描述
我们希望得到的结果是,如果输入:
The highest mountain in Taiwan is Yushan.
得到:
The highest mountain in Taiwan is [QA(“highest mountain in Taiwan”)] Yushan.

当然,这样做得到结果噪音较多,实作效果不好。
法二:在法一的结果上进行提纯,使用语言模型对结果进行验证,验证方法如下:
先去掉QA API,丢入语言模型,看得到结果的几率是多少
在这里插入图片描述
然后加上QA API,丢入语言模型,看得到结果的几率是多少
在这里插入图片描述
如果得到正确结果的几率上升,说明API提示语有用,则该条数据保留,否则丢弃。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1095267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python项目之AI动物识别工具的设计与实现(django)

项目介绍: 💕💕作者:落落 💕💕个人简介:混迹java圈十余年,擅长Java、小程序、Python等。 💕💕各类成品java毕设 。javaweb,ssm,spring…

只要掌握Win32应用程序错误的来龙去脉,就没必要惊慌失措

也许你遇到了一个问题,你试图运行的程序已损坏甚至丢失。在这种情况下,Windows将无法正确运行该文件,因此,操作系统将生成一个错误——文件不是有效的32位应用程序或文件不是无效的Win32应用程序。 错误通常是因为可执行文件不是有…

【大作文】【图表】【第一段】

描述主题: how sb do the factors that sb do the intention of

万字解析——区块链hyperledger fabric2.2部署实战教程

导航 一、前言二、hyperledger fabric介绍三、测试网络示例3.1 搭建开发环境3.2 安装示例、二进制和 Docker 镜像3.3 使用Fabric测试网络3.4 使用认证机构建立网络 四、汽车生产应用4.1 搭建开发环境4.2 注册登记等操作使用4.3 智能合约4.4 更新账本 五、商业票据应用5.1 运行网…

Adobe2024 全家桶更新了,PS、Ai、AE、PR应用尽有

Adobe2024 全家桶更新了,包含的PS、Ai、AE、PR......个人学习,专业领域都是必不可少的软件都有,需要的不要错过了。 如果你不知道从哪里安装这些工具,小编为大家带来了破J版资源,附上详细的安装包及安装教程。 Mac软件…

bat一键给windows server 2012 打补丁

流程图 脚本 install.bat 主脚本,整理实现逻辑都在这 ECHO OFF REM 自动判断权限问题,主动获取管理员权限>nul 2>&1 "%SYSTEMROOT%\system32\cacls.exe" "%SYSTEMROOT%\system32\config\system" if %errorlevel% NEQ 0…

LSTM模型的讲解与运用

实验目的: 循环神经网络(RNN)是一类以序列数据为输入,在序列的演进方向进行循环且所有循环单元按链式连接的神经网络。目前RNN已经广泛应用于语音识别、文本分类等自然语言处理任务中。本实验通过采用循环神经网络的变体长短期记忆网络(LSTM)&#xff0…

解决axios不发起请求的问题

一个很简单axios发起的get请求,但是network就是没有xhr记录: 找了半天也没有找到原因,后来问了chatgpt才找到原因: 请求地址url前面没有const关键字,此时url相当于undefined,而axios在url为undefined时不会…

安装Linux系统对硬件的要求

很多初学者在安装 Linux 系统时,都对自己的电脑配置存在质疑,担心其是否能够满足安装 Linux 的要求。本节就从 CPU、内存、硬盘、显卡等这些方面,详细介绍一下安装 Linux 系统的最低配置。 基于硬件的快速发展以及操作系统核心功能的增加&…

基于QPlainTextEdit带标签行号的文本编辑器

关键代码 CodeEditor.h 文件 #ifndef CODEEDITOR_H #define CODEEDITOR_H#include <QPlainTextEdit> #include <QPaintEvent> #include <QContextMenuEvent> #include <QMouseEvent> #include <QMouseEvent> #include <QPainter> #includ…

Hadoop 配置 Kerberos 认证

1、安装 Kerberos 服务器和客户端 1.1 规划 服务端&#xff1a; bigdata3 客户端&#xff08;Hadoop集群&#xff09;&#xff1a; bigdata0 bigdata1 bigdata2 192.168.50.7 bigdata0.example.com bigdata0 192.168.50.8 bigdata1.example.com bigdata1 192.168.50.9 b…

vue补充继上一篇

组合式API-reactive和ref函数 1.reactive() 作用&#xff1a;接受对象类型数据的参数传入并返回一个响应式的对象 1.从vue包中导入reactive函数 2.在<script setup>中执行reactive函数并传入类型为对象的初始值&#xff0c;并使用变量接受返回值。 2.ref() 作用&am…

如何做好一个管理者

一、管理的目标 管理的目的是效率和效益。管理的核心是人。管理的本质是协调&#xff0c;协调的中心是人。管理的真谛是聚合企业的各类资源&#xff0c;充分运用管理的功能&#xff0c;以最优的投入获得最佳的回报&#xff0c;以实现企业既定目标。 二、管理中的核心 2.1、核…

前馈型BP神经网络

1.感知机和激活函数 感知机&#xff0c;是构成神经网络的基本单位&#xff0c;一个感知机可以接收n个输入X&#xff08;x1,x2,x3…xn)T&#xff08;每个输入&#xff0c;可以理解为一种特征&#xff09;,n个输入对应n个权值W&#xff08;w1,w2,w3…wn),此外还有一个偏置项b&am…

AI换脸之Faceswap技术原理与实践

目录 1.方法介绍 2.相关资料 3.实践记录 ​4.实验结果 1.方法介绍 Faceswap利用深度学习算法和人脸识别技术&#xff0c;可以将一个人的面部表情、眼睛、嘴巴等特征从一张照片或视频中提取出来&#xff0c;并将其与另一个人的面部特征进行匹配。主要应用在图像/视频换脸&am…

GMM模型与EM算法

GMM模型与EM算法 --> 聚类 -> 无监督机器学习[参考] 一、单个高斯分布GM的估计参数 1.1 高斯分布 结果趋近于正态分布 每次弹珠往下走的时候&#xff0c;碰到钉子会随机往左还是往右走&#xff0c;可以观测到多次随机过程结合的 高斯分布的似然函数 X1-XN 全部发生的…

【2023】redis-stream配合spring的data-redis详细使用(包括广播和组接收)

目录 一、简介1、介绍2、对比 二、整合spring的data-redis实现1、使用依赖2、配置类2.1、配置RedisTemplate bean2.2、异常类 3、实体类3.1、User3.2、Book 4、发送消息4.1、RedisStreamUtil工具类4.2、通过延时队列线程池模拟发送消息4.3、通过http主动发送消息 5、&#x1f3…