大模型学习笔记十一:视觉大模型

news2024/9/24 1:14:33

一、判别式模型和生成式模型

1)判别式模型Discriminative

①给某一个样本,判断属于某个类别的概率,擅长分类任务,计算量少。(学习策略函数Y =f(X)或者条件概率P(YIX))
②不能反映训练数据本身的特性
③学习成本低(需要的训练样本量少)
④无法转为生成式

2)生成式模型Generative

①学习联合概率密度分布概率P(X,Y,学习所有数据的分布
能够反映训练数据本身的特性,能掌握数据本身的边界信息
③学习成本高(需要的样本数更多)0
④一定条件下可以转换为判别式

  • 示意图
    在这里插入图片描述

二、生成式模型技术路径

2.1 AutoEncoder自编码器

  • 组成
    编码器和解码器(其实就是特征压缩和特征拟合)
  • 示意图
    在这里插入图片描述
  • 注意
    ①AE中的隐变量是不具有语义特性的
    在这里插入图片描述

2.2 VAE变分自编码器(解决生成特定内容图像的问题)

  • 原理
    每一个特征对应一个正态分布的区间,比如微笑、皮肤、性别、胡须、毛发颜色等采样取差值
    在这里插入图片描述
  • 使用
    那我们只需要修改某个特征分布就可以达到想要的效果
  • 缺陷
    联合高斯密度生成信息损失大,图片比较粗糙

2.3 Diffusion Model扩散模型

  • 需求
    保留更多图片信息
  • 包括两个过程
    ①正向扩散过程:向输入数据中逐渐加入噪声的过程
    ②反向去噪过程:通过去噪方式学习数据生成过程
  • 示意图
    在这里插入图片描述+ 预测的是什么?
    预测的是前一步正向扩散加的噪声
  • 步骤
    ①每一步迭代都是从数据集中取一个初始的图像样本作为Xo
    ②把Xo从0到1000之间采样一个时间步的Xt,就是步数,比如取500步,就是给图片加500步噪声
    ③训练利用X500得到X499这样一个去噪过程
  • 公式
    在这里插入图片描述
  • 使用模型案例
    DiT Block
    在这里插入图片描述

2.4 Stabel Diffusion 模型结构

  • 与DM的不同(引入条件信息:对象分类、文本、排版布局、图片参考)
    在这里插入图片描述

  • 特点
    ①引入VAE模型减少计算量(图像特征压缩到原始尺寸的1/4),推理的时间复杂度会降低很多
    ②通过统一方式注入条件类型到模型
    ③CLIP只支持英文

  • 版本更新迭代(以前用的CLIP,普遍有文本内容理解问题,容易生成图文不对齐的情况)
    在这里插入图片描述

  • 特制模型(C站扩展举例)

    1. Indigo Furry mix

模型地址:https://civitai.com/models/34469?modelVersionId=109229

发布者:indigowing(个人主页:https://civitai.com/user/indigowing/models)

介绍:这是一系列的模型,主要专注于雄性兽/龙人(还有非全年龄向内容)。其模型有偏混合向的,偏动漫向的,还有偏现实向的。所以可根据你想画什么风格画风的画,来选择对应表现较好的模型 作者:琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处:bilibili
在这里插入图片描述
2. Crosskemono(furry_model&human_model)

模型地址:https://civitai.com/models/11888?modelVersionId=47368

注:此系列模型附带VAE,配合它来一起使用(VAE的作用可以理解为滤镜,在生成 AI 绘画时,会对输出的颜色和线条产生影响)

发布者:toynya(个人主页:https://civitai.com/user/toynya/models)

介绍:这个系列的模型主要是萌系日系那种风格的,可生成可爱的雄性或者雌性兽人,据演示图来看还可以生成兽娘(Furry程度表中的2级福瑞)。不过需要注意,这个模型也会生成非全年龄向的内容 作者:琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处:bilibili

在这里插入图片描述

  • 定制路线
    ①阶段一:图文对其训练,得出基础模型
    ②阶段二:图文对其训练,得出社区微调模型
  • 使用
    在这里插入图片描述

2.5 级联式文声图模型Imagen(Imagen是DeepFloyd IF模型的开源复现版本)

  • 特点
    ①性价比低
    ②推理速度慢
    ③拥有更加优秀的文字生成能力(与T5 text encoder有关)

2.6 文生图SD模型的应用扩展

1)图像引导图片生成(比如调色、清晰化图片)
①单图像引导图片生成 SD Inpainting模型
在这里插入图片描述
②单图像引导图片生成 Outpainting模型
在这里插入图片描述

③多张图片引导图片生成
4-20张照片,生成单人数字分身LoRA模型训练(秒鸭相机)

  • EasyPhoto+sd-webui-EasyPhoto一键安装整合包训练自己的AI数字人写真和lora模型 ainewsto
    ④3-5张图片使用dreambooth训练单一商品模型
  • SD训练DreamBooth模型
    在这里插入图片描述
    ⑤特征注入式引导图片生成ControlNet(特征提取比如动作)
    在这里插入图片描述
    ⑥特征注入式引导图片生成IP-adapter
    在这里插入图片描述

2.7 SD模型的加速方法

1)算子加速-最大化GPU利用率(TensorRT\ONNX)
2)蒸馏加速-减少迭代步数

①数据无关:
LCM:4步圣徒
②数据相关
ADD(SD Turbo):2步圣徒
UFO-GEN:1步圣徒

三、3D目标生成方法一览

3.1 基于Nerf的方法

在这里插入图片描述

  • 注意
    在这里插入图片描述
  • 展示(这里放不了视频,这里的图片是围绕物体转动的)
    在这里插入图片描述

3.2 基于扩散模型和的方法

四、视频生成方法一览

4.1 基于文成图预训练模型的方法

①AnimateDiff(做不了大场景和场景切换)
在这里插入图片描述
在这里插入图片描述

②AnimateAnyone
用动作指导单张图片生成
在这里插入图片描述

4.2 原生视频生成方法Sora

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1933864.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaScript学习笔记(九)

56、JavaScript 类 56.1 JavaScript 类的语法 请使用关键字 class 创建一个类。 请始终添加一个名为 constructor() 的方法。 JavaScript 类不是对象。 它是 JavaScript 对象的模板。 语法: class ClassName {constructor() { ... } }示例:例子创…

【无人值守】对数据中心电力分配系统发展的影响

数据中心在现代信息发展中承载着巨量数据的计算、存储、挖掘、分析和应用等多个方面的功能,是国计民生各行业的多样化的信息化的资产。对稳定的运行与安全运维是基本需求也是重要的保障。 数据中心属于高能耗产业,对用电负荷大且要求极度稳定。除了对电力…

一文-深入了解Ansible常见模块、安装和部署

1 Ansible 介绍 Ansible是一个配置管理系统configuration management system, python 语言是运维人员必须会的语言, ansible 是一个基于python 开发的(集合了众多运维工具 puppet、cfengine、chef、func、fabric的优点)自动化运维工具, 其功能实现基于ss…

HarmonyOS介绍

一、什么是HarmonyOS HarmonyOS是新一代的智能终端操作系统,为不同设备的智能化、互联与协同提供了统一的语言,为用户带来简捷、流畅、连续、安全可靠的全场景交互体验。 二、HarmonyOS的核心理念 1、一次开发 多端部署 指的是一个工程&#xf…

题解|2023暑期杭电多校05

【原文链接】 (补发)题解|2023暑期杭电多校05 1001.Typhoon 计算几何 题目大意 依次给定 n n n 个坐标 P P P ,预测的台风路线为按顺序两两连接给定坐标所得的折线 现在有 m m m 个庇护所的坐标 S S S ,求每个庇护所到台风…

基于AT89C51单片机的多功能自行车测速计程器(含文档、源码与proteus仿真,以及系统详细介绍)

本篇文章论述的是基于AT89C51单片机的多功能自行车测速计程器的详情介绍,如果对您有帮助的话,还请关注一下哦,如果有资源方面的需要可以联系我。 目录 选题背景 原理图 PCB图 仿真图 代码 系统论文 资源下载 选题背景 美丽的夜晚&…

c++树(一)定义,遍历

目录 树的定义 树的基本术语 树的初始起点:我们定义为根 树的层次: 树的定义: 树的性质 性质1: 性质2: 树形结构存储的两种思路 树的遍历模板 树上信息统计方式1-自顶向下统计 树上信息统计方式2-自底向上统…

【漏洞复现】泛微E-Cology WorkflowServiceXml SQL注入漏洞

0x01 产品简介 泛微e-cology是一款由泛微网络科技开发的协同管理平台,支持人力资源、财务、行政等多功能管理和移动办公。 0x02 漏洞概述 泛微OAE-Cology 接口/services/WorkflowServiceXml 存在SQL注入漏洞,可获取数据库权限,导致数据泄露…

Purple Pi OH在Android11下测试WiFi和LAN的TCP和UDP传输速率

本文适用于在Purple Pi OH在Andriod11下如何测试WiFi和LAN的TCP和UDP传输速率。触觉智能的Purple Pi OH鸿蒙开源主板,是华为Laval官方社区主荐的一款鸿蒙开发主板。 该主板主要针对学生党,极客,工程师,极大降低了开源鸿蒙开发者的…

C语言 ——— 在控制台上打印动态变化的菱形

目录 代码要求 代码实现 代码要求 输入 整数line &#xff0c;菱形的上半部分的长度就为line&#xff08;动态变化的菱形&#xff09; 菱形由 "*" 号构成 代码实现 #include<stdio.h> int main() {// 上半长int line 0;scanf("%d", &line)…

mysql常用函数五大类

mysql常用函数 1. 第一类&#xff1a;数值函数1.1 圆周率pi的值1.2 求绝对值1.3 返回数字的符号1.4 开平方&#xff0c;根号1.5 求两个数的余数1.6 截取正数部分1.7 向上取整数1.8 向下取整数1.9 四舍五入函数1.10 随机数函数1.11 数值左边补位函数1.12 数值右边补位函数1.13 次…

【网络工具】Charles 介绍及环境配置

✍个人博客&#xff1a;Pandaconda-CSDN博客 &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/iAmAo &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会整理一些工作或学习中用到的工具介绍给大家~ &#x1f4d8;Charles 系列其它文章&#xff1a;【网络…

PySide在Qt Designer中使用QTableView 显示表格数据

在 PySide6 中&#xff0c;可以使用 Qt Model View 架构中的 QTableView 部件来显示和编辑表格数据。 1、创建ui文件 在Qt Designer中新建QMainWindow&#xff0c;命名为csvShow.ui。QMainWindow上有两个部件&#xff1a;tableview和btn_exit。 2、使用pyuic工具将ui文件转换为…

路由上传一个ui_control参数(uint32类型)控制页面UI显隐

前言&#xff1a;传一个uint32类型的值&#xff0c;通过 按位或操作符&#xff08;|&#xff09;来设置ui_control的值&#xff0c;通过按位与操作符&#xff08;&&#xff09;来检测是否显示或隐藏 简单介绍一下两个概念&#xff1a; 按位与操作符和按位或操作符都是二进…

LeetCode-随机链表的复制

. - 力扣&#xff08;LeetCode&#xff09; 本题思路&#xff1a; 首先注意到随机链表含有random的指针&#xff0c;这个random指针指向是随机的&#xff1b;先一个一个节点的拷贝&#xff0c;并且把拷贝的节点放在拷贝对象的后面&#xff0c;再让拷贝节点的next指向原链表拷贝…

申贷时,被大数据风控拒贷有哪些原因呢?

很多人特别是从事过金融行业的人来说&#xff0c;大数据风控相信都不陌生&#xff0c;因为现在的银行和机构对申贷人的大数据信用看的越来越重要&#xff0c;已然成看贷前审查的重要依据&#xff0c;那申贷时&#xff0c;被大数据风控拒贷有哪些原因呢?本文就与大家一起探讨一…

codeforces 1862A

文章目录 1. 题目链接2. 题目代码正确代码 3. 题目总结学习 1. 题目链接 Gift Carpet 2. 题目代码 正确代码 #include<iostream> #include<vector> using namespace std; char letterTable[21][21]; int main(){int testCase;cin >> testCase;int row;int …

如何培养企业内部的大客户管理能力

去年年底&#xff0c;A公司的销管老王因身体抱恙休了长假&#xff0c;销售小张在接手老王负责的某集团型大客户时却犯了难&#xff1a;双方历史成交的记录详情无从查起&#xff1b;维护客情关系又不知道该去拜访谁、哪位领导关心哪些信息&#xff1b;甚至集团客户各公司的跟进节…

【Python进阶】正则表达式、pymysql模块

目录 一、正则表达式的概述 1、基本介绍 2、快速使用re模块 二、正则的常见规则 1、匹配单个字符 2、原始字符串 3、匹配多个字符 4、匹配开头和结尾 5、匹配分组 三、Python与MySQL交互 1、pymysql模块的安装 2、pymysql的操作步骤 3、connection对象 4、cursor…

MongoDB教程(九):java集成mongoDB

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; 文章目录 引言一、环境准…