AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.3-大模型发展历程 之 多模态)

news2025/1/17 3:43:49

文章大纲

  • 什么是多模态
  • stable diffusion
  • “ CLIP + 其他模型”成为通用的做法
  • 多模态模态生成:文字生成图像取得突破,其他领域仍有待提升
  • 参考文献与学习路径
    • GPT 系列模型解析
    • 前序文章
    • 模型进化
    • 券商研报
    • 陆奇演讲
    • 多模态


什么是多模态

多模态生成, 指将一种模态转换成另一种模态, 同时保持模态间语义一致性 。主要集中在文字生成图片 、文字生成视频及图片生成文字。

stable diffusion

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

“ CLIP + 其他模型”成为通用的做法

多模态定义: 多模态生成, 指将一种模态转换成另一种模态, 同时保持模态间语义一致性 。主要集中在文字生成图片 、文字生成视频及图片生成文字。
◼ Transformer架构的跨界应用成为跨模态重要开端之一 。多模态训练普遍需要匹配视觉的区域特征和文本特征序列, 形成Transformer架构擅长处理的一 维长序列, 与Transformer的内部技术架构相符合 。此外Transformer架构还具有更高的计算效率和可扩展性, 为训练大型跨模态模型奠定了基础。
◼ CLIP ( Contrastive Language-Image Pre-training, 可对比语言-图像预训练算法) 成为图文跨模态重要节点。
✓ 2021年, OpenAI发布了CLIP, 是一种经典的文图跨模态检索模型, 在大规模图文数据集上进行了对比学习预训练, 具有很强的文图跨模态表征学习能 力 。CLIP模型包含图像和文本的Encoder两部分, 用于对图像和文本分别进行特征抽取。
✓ “CLIP+其他模型”在跨模态生成领域成为较通用的做法, 如Disco Diffusion, 其原理为CLIP模型持续计算Diffusion模型随机生成噪声与文本表征的 相似度, 持续迭代修改, 直至生成可达到要求的图像。


多模态模态生成:文字生成图像取得突破,其他领域仍有待提升

◼ 文字生成图像: 2021年, OpenAI推出了CLIP和DALL-E, 一年后推出了DALL-E2; 2022年5月, 谷歌推出了Imagen和新一代AI绘画大师Parti; 2022年 8月, Stability Al推出Stable diffusion并宣布开源 。国内主流的AI绘画平台有文心一格 、盗梦师 、意间AI 、Tiamat等。
◼ 文字生成视频: 以Token为中介, 关联文本和图像生成, 逐帧生成所需图片, 最后逐帧生成完整视频 。但由于视频生成会面临不同帧之间连续性的问题, 对 生成图像间的长序列建模问题要求更高, 以确保视频整体连贯流程 。按技术生成难度和生成内容, 可区分为拼凑式生成和完全从头生成。

◼ 图像/视频生成文本: 具体应用有视觉问答系统 、配字幕 、标题生成等, 代表模型有METER 、ALIGN等。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述


参考文献与学习路径

车万翔等统稿

  • ChatGPT 调研报告

模型部署简介

  • https://github.com/open-mmlab/mmdeploy/blob/master/docs/zh_cn/tutorial/01_introduction_to_model_deployment.md

GPT 系列模型解析

ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT

  • https://blog.csdn.net/v_JULY_v/article/details/128579457

数云融合|探究GPT家族的进化之路:GPT-3、GPT-3.5和GPT-4的比较分析

  • https://zhuanlan.zhihu.com/p/616691512

前序文章

  • 初探 GPT-2
  • 生成式AI(Generative AI)将重新定义生产力
  • AIGC 后下一个巨大的风口:AI生成检测
  • 代表AIGC 巅峰的ChatGPT 有哪些低成本开源方案能够复现?
  • 如何驯化生成式AI,从提示工程 Prompt Engineering 开始 !

模型进化

面向统一的AI神经网络架构和预训练方法

  • https://www.sohu.com/a/673342257_121124371

券商研报

从ChatGPT到生成式AI:人工智能新范式重新定义生产力

  • https://xueqiu.com/9005856403/240887888
  • https://xueqiu.com/5159309685/241858304
    浙商证券:《AIGC算力时代系列:ChatGPT研究框架》
    国泰君安:ChatGPT研究框架(2023)

腾讯研究院:AIGC发展趋势报告2023

华东政法大学:人工智能通用大模型ChatGPT的进展风险与应对

  • http://www.199it.com/archives/1568017.html

ChatGPT浪潮下,看中国大语言模型产业发展

  • https://www.iresearch.com.cn/Detail/report?id=4166&isfree=0

AI服务器拆解,产业链核心受益梳理

  • https://xueqiu.com/2524803655/247578353

国海证券,AIGC深度行业报告:新一轮内容生产力革命的起点
https://xueqiu.com/6695901611/243415262

陆奇演讲

飞书的赛比链接不能复制只能看。。。

陆奇演讲PPT官方版
https://miracleplus.feishu.cn/file/TGKRbW4yrosqmixCtprcUlAynzg
陆奇演讲视频官方版
https://miracleplus.feishu.cn/file/OrO7bivJeoT6FxxSjaJcXWlwncS
陆奇演讲文本官方版
https://miracleplus.feishu.cn/docx/Mir6ddgPgoVs3KxF6sncOUaknNS

微信公众号版本 ,能复制

  • https://mp.weixin.qq.com/s/fzYxwaANqWpqxC__1zTNDA

多模态

直观理解Stable Diffusion

  • https://zhuanlan.zhihu.com/p/598999843

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/607096.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PAT A1164 Good in C

1164 Good in C 分数 20 作者 陈越 单位 浙江大学 When your interviewer asks you to write "Hello World" using C, can you do as the following figure shows? Input Specification: Each input file contains one test case. For each case, the first pa…

信息论与编码 SCUEC DDDD 期末复习

1.证明熵的可加性 2.假设一帧视频图像可以认为是由3*10的五次方个像素组成(每像素均独立变化),如果每个像素可取128个不同的等概率亮度表示。请计算出每帧图像含多少信息量?若有一口述者在约12000个汉字的字汇中选400个字来口述此…

计算机网络|第五章:网络层:控制平面

目录 📚概述 📚路由选择算法⭐️ 🐇链路状态路由选择算法 ⭐️Dijkstra算法 🐇距离向量路由选择算法 ⭐️DV算法 🐇LS与DV路由选择算法的比较 📚因特网中自洽系统内部的路由:OSPF &…

chatgpt赋能python:Python取消关机:让你摆脱关机的烦恼

Python取消关机:让你摆脱关机的烦恼 作为一名有10年Python编程经验的工程师,我深知电脑在工作中的重要性和关机时带来的不便。有的时候你可能会忘记保存数据,或是需要长时间运行的程序正在进行,而突然被迫关机是非常让人头疼的。…

chatgpt赋能python:Python是炒股的好工具吗?——一个有10年python编程经验的工程师的分析

Python 是炒股的好工具吗?—— 一个有10年python编程经验的工程师的分析 作为一个有10年python编程经验的工程师,我深深地了解了Python的能力和潜力。 它不仅是一种流行的编程语言,还是一个强大的功能开发平台。它包括很多库,如P…

Maven高级——继承与聚合——继承关系实现

将Maven拆分成多个项目之后又会引发新的问题,继承与聚合就是用来解决这些问题。 这里的继承就像java中类和类之间的继承一样,工程之间也是可以实现继承的。 继承解决的问题 在之前拆分的三个模块中每个都配置了一个lombok的依赖,每一个mav…

【ARMv8 SIMD和浮点指令编程】NEON 减法指令——减法也好几种

向量减法包括常见的普通加指令,还包括长减、宽减、半减、饱和减、按对减、按对加并累加、选择高半部分结果加、全部元素加等。 1 SUB 减法(向量),该指令从第一个源 SIMD&FP 寄存器中的相应向量元素中减去第二个源 SIMD&…

旧改快讯--宝安又一项目计划失效:有效期内专规未获批

西井工业区城市更新单元计划(失效)公告 西井工业区城市更新单元原列入了《2019年深圳市宝安区城市更新单元五批计划》,更新单元计划有效期3年9个月,自2019年8月12日起至2023年5月11日止;该项目在计划有效期内更新单元规…

GAN培训挑战:用于彩色图像的DCGAN

GAN培训挑战:用于彩色图像的DCGAN 1. 效果图2. 原理2.1 用于彩色图像的 DCGAN2.3 准备数据2.4 生成器2.5 鉴别器2.6 DCGAN模型及回调函数2.7 GAN培训挑战2.8 未能聚合(Non-convergence)2.9 模式崩溃(Mode collapse)2.1…

chatgpt赋能python:Python取元素里的数字

Python取元素里的数字 Python是一种高级编程语言,它的使用范围非常广泛,在数据科学、人工智能、网络编程等领域都有很多应用。在Python程序中,我们经常需要从字符串或列表中提取数字,这篇文章将介绍在Python中如何取元素里的数字…

Anolis OS8 磁盘扩容

最近学习的时候,使用Vmware安装了AnolisOS8进行测试,随着学习的深入,组件安装越来越多,磁盘不够用了,但是安装的组件又太多,重新装个虚拟机又得重新装各种组件。所以决定对磁盘进行扩容,在这里做…

chatgpt赋能python:Python如何只提取文本中的数字?

Python如何只提取文本中的数字? 随着数字化时代的到来,数字成为了我们生活中不可或缺的一部分。我们每天都需要处理大量的数字,比如账单、统计数据等等,这些数字都散落在各个文本中。如果我们需要将这些数字提取出来,…

计算机视觉:目标检测理论及实战

有关锚框的部分可以看我的另一篇文章:点击这里。下文不再赘述 文章目录 多尺度目标检测多尺度锚框 数据集单发多框检测(SSD)模型设计类别预测层边界框预测层连结多尺度的预测高和宽减半块基本网络块完整的模型 训练导入数据集定义损失函数Utils函数(用于为每个锚框标…

【内网穿透】Linux本地搭建GitLab服务器

文章目录 前言1. 下载Gitlab2. 安装Gitlab3. 启动Gitlab4. 安装cpolar内网穿透5. 创建隧道配置访问地址6. 固定GitLab访问地址6.1 保留二级子域名6.2 配置二级子域名 7. 测试访问二级子域名 转载自cpolar极点云文章:Linux搭建GitLab私有仓库,并内网穿透实…

chatgpt赋能python:Python取款:让你的银行账户管理更智能

Python取款:让你的银行账户管理更智能 介绍 Python不仅是一种全球广泛应用的计算机编程语言,而且还拥有很多适合财务管理和数据处理的工具,用于提高效率和减少错误。本文将重点介绍如何使用Python自动管理银行账户的取款,以及它…

chatgpt赋能python:Python句点:为什么它如此重要?

Python句点:为什么它如此重要? 介绍 Python是一种高级编程语言,它以简单且易理解的语法而闻名。Python中有一种符号——句点(.),它在Python中扮演着非常重要的作用。在本文中,我们将深入研究P…

chatgpt赋能python:Python只取小数

Python只取小数 Python是一种高级编程语言,被广泛应用于数据科学、人工智能、Web开发等领域。在数据分析和计算中,往往需要只保留小数,本文将介绍如何使用Python只取小数,并提供相关代码。 什么是小数? 在数学中,小…

Golang每日一练(leetDay0086) 回文链表、删除链表节点

目录 234. 回文链表 Palindrome Linked-list 🌟 237. 删除链表中的节点 Delete Node In a Linked-list 🌟🌟 🌟 每日一练刷题专栏 🌟 Rust每日一练 专栏 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练…

安卓逆向 -- Frida环境搭建(HOOK实例)

一、开启抓包程序Postern和Charles 二、目标分析 打开jadx,把apk拖拽进去,全局搜索"pwd",挨个分析,明显来自于这条代码,后面是md5,可以判断pwd加密是md5,我们hook该地方 三、Frida环…

【23种设计模式】观察者模式(Observer Pattern)

个人主页:金鳞踏雨 个人简介:大家好,我是金鳞,一个初出茅庐的Java小白 目前状况:22届普通本科毕业生,几经波折了,现在任职于一家国内大型知名日化公司,从事Java开发工作 我的博客&am…