第十四周:机器学习

news2025/1/24 4:55:54

目录

摘要

Abstract

一、生成式对抗网络(下)

1、回顾 

2、生成式模型

3、generative评价指标

 4、conditional generation

5、cycle GAN

二、总结 


摘要

接着上周对GAN的初步概念了解及其理论推导,本周回顾了GAN难以训练的问题,从而提出了GLO的解决方案——不仅易于训练,而且还能达到GAN的训练效果;为了正确合理地衡量generator的效果,提出了几种评价指标:SI和FID;考虑到GAN的实际输入不总以”成对“出现,所以提出了cycle GAN来解决该问题,并且学习了解决流程图。

Abstract

Following last week's preliminary conceptual understanding of GAN and its theoretical derivation, this week we review the problem of GAN's difficulty in training, and thus propose a solution for GLO - not only easy to train, but also to achieve the training effect of GAN; in order to correctly and reasonably measure the effect of the generator, we propose several evaluation indexes In order to properly measure the effectiveness of the generator, several evaluation metrics were proposed: SI and FID; considering that the actual inputs to the GAN do not always appear in “pairs”, a cycle GAN was proposed to solve the problem, and the solution flowchart was learned.

一、生成式对抗网络(下)

1、回顾 

上周简单的学习了GAN的组成——generator和discriminator。二者之间是相互对抗、相互促成的关系。generator负责生成与数据集相似的图片来迷惑discriminator,而discriminator负责分辨出数据集图片的真假。discriminator越严格,generator的学习效果就越好;generator的学习效果越好,就会促使 discriminator越严格。

问题:GAN采用JS-divergence,会导致梯度消失,所以不能梯度下降

解决:reinforce learning(也许不太好训练)或者scratch GAN,scratch GAN如下所示:

2、生成式模型

VAE

FLOW-base model  (next lecture)

问题:GAN是非监督学习,难以训练,是否可以增加样本对使得其有学习参照对象

解决:generative latent optimization

GLO

generative latent optimization(GLO)生成式潜在优化:与GAN相比,免去了生成对抗训练的策略,取得了类似GAN的效果

线性插值法: 

 如上图所示,每一行最左和最右的两张图片是数据集中的图片,中间的图片都是利用线性插值法计算出来的过渡图片 

平均插值法:

 上图中最右边的三张是数据集中的图像,其余的都是三张图像根据语义叠加得到的插值图像

latent-code线性运算法:

 

左边的九张图片来自真实数据集,右边的图像时对latent-code进行“戴墨镜男人-男人+女人”的先行操作得到的。 

3、generative评价指标

图像作为输入,经过图像分类器最终得到的分布,若是分布比较集中,说明机器不能准确的判别出输入图像的类别,也就是能够比较确定generator产生的图片比较接近真实图片;若是分布比较分散,说明机器对于generator产生的图片比较奇怪,不能准确的与真实图片相匹配。

问题1:mode collapse ——quality

mode collapse模式坍塌:是由于generator产生的结果比较单一,即使追求到了最低的判别损失D^*,但是却没有考虑到数据集的合理分布。 

给定一些真实的二次元图像,最终机器经过学习生成二次元图像如下: 

 

上图中可以看出,机器抓住了“大眼睛”的特征,不断的生成二次元图像,不仅仅忽略了其他的特征,而且还不停的生成同一种图片来试图骗过discriminator。

问题2:mode dropping——diversity

mode dropping:即使能够很好的训练GAN数据集中的数据,但是generator很难生成非数据集的新数据。

即使解决了问题1, 输入数据集的分布比较均匀,但是生成图像仍不尽人意,如下图所示:

 上图中下一轮的迭代后generator生成的图像仅仅是上一轮图像的颜色进行调整,并没有真正意义上生成新的图片。

解决:采用image calssfier

 

我们可以将generator生成的许多张图片放入image classifier中进行分类概率预测,最终每张生成图像都会得到一个分类预测的分布。

我们希望较好的结果:generator生成的每张图片的分类概率的分布比较集中更好,说明能确定出生成图片与真实图片的更加接近,评价指标设为quality;最终所有generator分类后的平均分布比较分散更好,说明数据集挑选的分布更加均匀,评价指标设为diversity。简而言之,quality评价范围是一张图片,越集中越好;diversity评价范围是一批图片,越平坦(分散)越好。

IS(inception score):既考虑了图像生成的质量,又考虑了图像输入数据集的分布

问题:IS不能反映过拟合,并且在一个数据集A上训练的分类模型,不能应用到另一个数据集B上训练其生成模型。

FID(Fréchet Inception Distance):计算真实图片和生成图片的Inception特征向量之间的距离

上图可以看出,二者的距离越接近越好,就代表生成图像与真实图像更加相似,也就是二者分布越接近越好。

问题:生成图像与数据集相似度很大,FID很小,但是生成图片仅仅是做了简单的transform而已,并没有生成新的图像。

 4、conditional generation

往往在日常生活中,我们需要机器生成的结果都是带有一定过滤条件的,此时我们需要在输入的时候把数据集中“单个的“数据换成”成对(带有condition)的“数据,如下图: 

上图中,我们需要机器根据输入的文字转换相对应的图片。正确匹配的情况:image是二次元图像,image匹配text所描述内容;错误匹配的情况:image不是二次元图像,image与text所描述内容不匹配。

经过实验表明,监督学习下生成的图片和无监督的GAN生成的图片如下:

监督学习因为有目标对象作为参照,所以限制了机器的自由发挥,最终得到的图像比较模糊而正确;无监督的GAN无目标对象,只能通过自我学习进行预测,其想象力发挥过大,图像清晰但不太准确。

总结:最好的方式就是GAN+监督学习 

问题:conditional generation需要成对的训练资料,但是有很多数据集并没有成对的数据

 

需要把x domain分布的图像转化为y domain分布的图像,并且输入与输出图像之间还需要语义之间的关联。

解决:cycle GAN

5、cycle GAN

实际上,cycle GAN是在原始GAN的基础上将一个generator改进成了一对generators。因为需要保证输入图像A和输出图像B之间的关联性,我们增加了一个generator放到输出图像B后面来生成输入图像{A}',最后只需要使得原始输入图像A和后得输入图像{A}'保持一致即可。同时,生成图像需要经过discriminator的判别和generator1、generator2的不断改进。

二、总结 

本周对GAN进行进一步的理论学习,下周将从其数学理论入手,详细分析损失函数、GAN的架构等。 还将继续了解VAE和FLOW-base model等典型的生成式模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2192764.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

常见排序详解(历时四天,哭了,必须释放一下)

目录 1、插入排序 1.1 基本思想 1.2 直接插入排序 1.2.1 思路 1.2.2 代码实现 1.2.3 性质 1.3 希尔排序 1.3.1 思路 1.3.2 代码实践 1.3.3 性质 2、选择排序 2.1 基本思想 2.2 直接选择排序 2.2.1 思路 2.2.2 代码实践 2.2.3 性质 2.3 堆排序 2.3.1 思路 2.…

No.5 笔记 | 网络端口协议概览:互联网通信的关键节点

1. 常用端口速览表 端口范围主要用途1-1023系统或特权端口1024-49151注册端口49152-65535动态或私有端口 远程访问类(20-23) 端口服务记忆技巧安全风险21FTP"File Transfer Port"爆破、嗅探、溢出、后门22SSH"Secure Shell"爆破、…

基于 STM32F407 的 SPI Flash下载算法

目录 一、概述二、自制 FLM 文件1、修改使用的芯片2、修改输出算法的名称3、其它设置4、修改配置文件 FlashDev.c5、文件 FlashPrg.c 的实现 三、验证算法 一、概述 本文将介绍如何使用 MDK 创建 STM32F407 的 SPI Flash 下载算法。 其中,SPI Flash 芯片使用的是 W…

人工智能专业就业方向与前景

随着产业结构升级的持续推进,未来行业领域对于人工智能专业人才的需求量会逐渐增加,一部分高校也开始陆续在本科阶段开设人工智能专业,以缓解人工智能领域人才缺口较大的问题。下面是小编整理的人工智能专业就业方向与前景,欢迎阅…

Leecode热题100-41.缺失的第一个正数

给你一个未排序的整数数组 nums ,请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。 示例 1: 输入:nums [1,2,0] 输出:3 解释:范围 [1,2] 中的数字都在数组…

C++面向对象:继承!

前言 继承是面向对象三大特性之一,所有的面向对象的语言都具备这三个性质,我们之前已经介绍过了封装的相关概念,今天我们来学习一下第二大特性:继承。 一.继承的概念 什么是继承? 定义:继承(…

AI相关的整理

AI相关的整理 初体验记不住如何部署如何微调 整理AI学习,AI小白,业余爱好。持续更新,谨慎参考! 初体验 试了一下本地直接下载安装ollama和open-webui,然后运行指定的模型,跟着文档做,很简单。但…

(Linux驱动学习 - 7).阻塞IO和非阻塞IO

一.阻塞IO和非阻塞IO定义 1.阻塞IO 当应用程序对设备驱动进行操作的时候,如果不能获取到设备资源,那么阻塞式IO就会将应用程序对应的线程挂起,直到设备资源可以获取为止。 在应用程序中,用户调用 open 函数默认是以阻塞式打开设备…

54.二叉树的最大深度

迭代 class Solution {public int maxDepth(TreeNode root) {if(rootnull){return 0;}int de0;Queue<TreeNode> qunew LinkedList<>();TreeNode tn;int le;qu.offer(root);while(!qu.isEmpty()){lequ.size();while(le>0){tnqu.poll();if(tn.left!null){qu.offe…

RTA-OS Port Guide学习(四)-基于S32K324 OS

文章目录 前言PerformanceMeasurement EnvironmentRAM and ROM Usage for OS ObjectsSingle CoreMulti Core Stack UsageLibrary Module SizesSingle CoreMulti Core Execution TimeContext Switching Time 总结 前言 前面一篇文章介绍了硬件的一些特性&#xff0c;本文为最后…

国内目前顶级的哲学教授颜廷利:全球公认十个最厉害的思想家

国内目前顶级的哲学教授颜廷利&#xff1a;全球公认十个最厉害的思想家 颜廷利&#xff0c;字弃安&#xff0c;号求前&#xff0c;山东济南人&#xff0c;当代著名思想家、哲学家、教育家、易经心理学家、中国第一起名大师、国际权威易学大师、中国汉字汉语研究专家、现代最著…

什么是数字化智能工厂的组成

二、数字化智能工厂的主要功能组成 数字化智能工厂主要由以下几个功能部分组成&#xff1a; 自动化生产设备&#xff1a;包括机器人、智能传感器、可编程逻辑控制器&#xff08;PLC&#xff09;等&#xff0c;用于实现生产过程的自动化操作&#xff0c;减少人力依赖&#xff0…

[C#]C# winform部署yolov11-pose姿态估计onnx模型

【算法介绍】 在C# WinForms应用中部署YOLOv11-Pose姿态估计ONNX模型是一项具有挑战性的任务。YOLOv11-Pose结合了YOLO&#xff08;You Only Look Once&#xff09;的高效物体检测算法和Pose Estimation&#xff08;姿态估计&#xff09;专注于识别人体关键点的能力&#xff0…

移动WSL到其他盘

1、首先下载 Move WSL 工具包&#xff0c;并解压。&#xff08;https://github.com/pxlrbt/move-wsl/archive/refs/heads/master.zip&#xff09; 2、管理员身份运行Windows PowerShell。 3、在PowerShell中运行如下命令&#xff0c;停止正在运行的Linux子系统。 wsl --shutd…

柯桥商务英语口语-work-shy 是什么意思?不要理解成“工作害羞”!

ork工作&#xff0c;shy是害羞&#xff0c;那么&#xff0c;work-shy是什么意思&#xff1f; 其实在 "work-shy" 这个短语中&#xff0c;"shy" 的意思并不是害羞&#xff0c;而是表达一种躲避、逃避的意思。 "work-shy" 表示对工作有一种躲避、…

深度学习基础—交并比与非极大值抑制

1.交并比 &#xff08;1&#xff09;定义 交并比是用来衡量目标检测算法的表现的函数。定义如下&#xff1a; 用预测框和真实框的面积的交集除以预测框和真实框的面积的并集&#xff0c;得到的结果本次算法预测的交并比。研究函数可以发现&#xff0c;交并比的范围为[0,1]&…

cnn突破七(四层bpnet网络公式与卷积核bpnet公式相关)

我们要有一个概念&#xff0c;就是卷积核就是我们的w1&#xff0c;w12&#xff0c;w2 那么我们的5*5卷积核怎么表达&#xff0c;当他在14*14的图像中流动时&#xff0c;对应的像素也在变化 这个和我们的上面w1&#xff0c;w12&#xff0c;w2不同&#xff0c;因为这几个都是全…

测绘地理信息赋能新质生产力

在信息化与智能化浪潮的推动下&#xff0c;测绘地理信息作为连接现实世界与数字空间的桥梁&#xff0c;正逐步成为驱动经济社会发展的新质生产力。本文旨在深入探讨测绘地理信息如何通过技术创新与应用拓展&#xff0c;为各行各业赋能&#xff0c;塑造智慧社会的新面貌。 一、…

word无法复制粘贴

word无法复制粘贴 使用word时复制粘贴报错 如下&#xff1a; 报错&#xff1a;运行时错误‘53’&#xff0c;文件未找到&#xff1a;MathPage.WLL 这是mathtype导致的。 解决方法 1&#xff09;在mathtype下载目录下找到"\MathType\MathPage\64"下的"mathpa…

第T3周:CNN实现天气识别

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 目标&#xff1a; 搭建CNN网络模型实现多云、下雨、晴、日出四种天气状态的识别&#xff0c;并用真实天气做预测 具体实现&#xff1a; &#xff08;一&#x…