详细解读DALLE 3技术报告:Improving Image Generation with Better Captions

news2024/12/26 1:49:55

Diffusion models代码解读:入门与实战

前言:OpenAI是推动大模型创新的领头羊,最近发布的DALLE 3凭借着远超市面上其他图片生成模型的表现,再次火出圈。最近OpenAI官方发布了DALLE 3的技术报告《Improving Image Generation with Better Captions》。这篇博客详细解读这篇技术报告,揭示DALLE 3背后的秘密。

目录

贡献概述

方法详解

原有图像标题存在的问题

微调图像标题生成器

论文和代码地址

个人感悟


贡献概述

现有的文本到图像模型在跟随详细的图像描述方面存在问题,常常忽略单词或混淆提示的含义,例如DALL-E 2没有强制要求每个单词只有一个含义的约束。作者假设这个问题源于训练数据集中不准确的图像标题。为了解决这个问题,作者训练了一个定制的图像标题生成器,并使用它对训练数据集进行了重新标注。作者利用这些发现构建了DALL-E 3,取得了非常好的效果。

方法详解

原有图像标题存在的问题

在互联网上找到的标题往往是错误的,描述了与图像边缘相关的细节。所以作者决定要用给图像打标题的方法来合成这样的数据集。

下面这样图展示了合成的图片标题会比直接从收集到的描述详细很多。

微调图像标题生成器

作者采用了先合成短标题再合成长标题的方法。

先构建了一个小的数据集,其中的标题只描述图像的主要主题。然后继续在该数据集上训练图像标题生成器。这个过程中θ的更新使得模型更倾向于描述图像的主要主题,将这种微调后生成的标题称为“短标题合成器”。

重复这个过程,创建一个包含每个图像内容的长、高度描述性标题的数据集。这些标题不仅描述图像的主要主题,还描述了其周围环境、背景、图像中的文字、风格、着色等。再次在这个数据集上对基础的图像标题生成器进行微调,将这个图像标题生成器生成的标题称为“描述性标题合成”。

论文和代码地址

https://cdn.openai.com/papers/dall-e-3.pdf

代码地址暂无

个人感悟

1、openai太强了,先跪为敬。

2、这篇技术报告不包含DALL-E 3模型的训练或实验细节,只介绍了前期洗数据时候如何标注图片,其他关键部分讳莫如深。

3、这篇技术报告对自己做预训练的研究者来说特别有借鉴意义。

4、在技术介绍上也太抠了,方法才讲了1页,讳莫如深啊!很小气!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1118931.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Canvas和SvG的区别是什么?

Canvas和SVG是两种用于在Web上绘制图形的不同技术,它们有一些区别: 1:绘图方式: Canvas使用JavaScript API,通过在画布上绘制像素来创建图形。提供了对像素级别的控制,可以实现复杂的图形和动画效果。SVG…

项目经理之识别项目干系人

项目干系人管理是项目管理中的重要一环,识别和管理好项目干系人是成功实施项目的关键之一。本文将介绍4321项目干系人识别方法、干系人等级册以及五步判断法等工具,帮助项目经理更好地识别和管理项目干系人。同时,本文还将介绍干系人能量方格…

【疯狂Java讲义】Java学习记录(IO流)

IO流 IO:Input / Output 完成输入 / 输出 应用程序运行时——数据在内存中 ←→ 把数据写入硬盘(磁带) 内存中的数据不可持久保存 输入:从外部存储器(硬盘、磁带、U盘&#…

在unity中利用公开变量引用物体和组件(有手就会)

在任意的脚本组件中(必须先绑定物体),添加一个公开的 GameObject 类型的变量 using System.Collections; using System.Collections.Generic; using UnityEngine;public class test1 : MonoBehaviour {public GameObject other;// Start is …

蛋白质折叠

文章目录 4. GNNs for Protein foldingChemical Structures as GraphsProtein Structure PredictionMethods for Protein Structure PredictionOld method: fragment assemblyNew StrategyCo-evolution Analysis Towards An End-to-End Workflow AlphaFold2 architecture补充&a…

物联网AI MicroPython传感器学习 之 DRV8833电机驱动模块

学物联网,来万物简单IoT物联网!! 一、产品简介 DRV8833电机驱动模块是一种单H桥电机驱动芯片,可驱动2个直流电机和4线步进电机。内置过流保护,短路保护,欠压闭锁和过热保护,带低功耗睡眠模式。…

一篇文章讲懂mysql中的锁

事务的隔离性是由锁来实现的。 为什么需要锁 锁是计算机协调多个进程或线程并发访问某一资源的机制。在程序开发中会存在多线程同步的问题,当多个线程并发访问某个数据的时候,尤其是针对一些敏感的数据(比如订单、金额等)&#x…

高校教务系统登录页面JS分析——巢湖学院

高校教务系统密码加密逻辑及JS逆向 本文将介绍高校教务系统的密码加密逻辑以及使用JavaScript进行逆向分析的过程。通过本文,你将了解到密码加密的基本概念、常用加密算法以及如何通过逆向分析来破解密码。 本文仅供交流学习,勿用于非法用途。 一、密码加…

UDP和TCP:奇妙的网络协议

之前,我们介绍了基本的网络原理和网络编程的相关知识,接下来会根据TCP/IP协议栈,具体的介绍这里的关键协议和知识。这部分知识虽然是理论为主,但是这是我们作为程序员的基本内功,非常重要。 本文我们重点介绍TCP和UDP…

TCP协议的报文结构及其特性

文章目录 一、TCP报头二、TCP的特性2.1确认应答2.2超时重传2.3连接管理2.3.1三次握手2.3.2四次挥手 2.4滑动窗口2.5流量控制2.6拥塞控制2.7延时应答2.8捎带应答2.9面向字节流2.10TCP异常情况的处理 一、TCP报头 TCP报头(header)分为11个部分,TCP报头大小为(20~60个…

springboot实现文件上传和读取

一.本地存储(将图片存放在本地的nginx服务器上) 在nginx上创建images目录,用来存储上传的文件 (使用nginx的好处是暴露端口,便于外界访问,同时nginx作为静态资源服务器在处理静态资源方面更快) 不然你访问文件就需要通…

android 13/14高版本SurfaceFlinger出现VSYNC-app/VSYNC-appSf/VSYNC-sf剖析

问题背景: 了解surfaceflinger的vsync同学都可能知道vsync属于一个节拍器,主要用来控制有节奏的渲染,不至于会产生什么画面撕裂等现象。 一般vsync都有会有2部分: app部分vsync,控制各个app可以有节奏的上帧 surfacef…

FPGA project : sdram

sdram读写控制器 实验目标: 设计并实现一个 SDRAM 数据读写控制器,使用 PC 机通过串口向 SDRAM 写入 10 字 节数据,并将写入的 10 字节数据读出,通过串口回传至 PC 机,在串口助手上位机上打印 显示回传数据。 框图设…

towxml的使用,在微信小程序中快速将markdown格式渲染为wxml文本

towxml的使用,在微信小程序中快速将markdown格式渲染为wxml文本 Towxml概述安装下载 Towxml在小程序中使用 towxml Towxml概述 towxml3.0 支持以下功能: ● echarts图表,默认禁用,需自行构建以开启此功能 ● LaTeX数学公式&#…

3D视觉硬件技术

目前市面上主流的3D光学视觉方案有三种: 双目立体视觉法(Stereo Vision,在下文称双目法),结构光法(Structured Light,在下文称结构光)以及飞行时间法(Time of Flight, ToF在下文称T…

Java日志系统之Logback

目录 Logback Logback的简单使用 Logback配置文件 log4j.peoperties转化为logback.xml Logback Logback的性能要比log4j要好。 Logback分为三个模块: logback-core:其他两个模块的基础模块logback-classic:它是log4j的一个改良版本&am…

【网络协议】聊聊ICMP与ping是如何测试网络联通性

ICMP协议格式 ping是基于iCMP协议工作的,ICMP全称Internet Control Message Protocol,就是互联网控制报文协议。其实就是有点类似于古代行军打仗,哨探进行前方探明具体情况。 IMCP本身处于网络层,将报文封装在IP包里,…

AYIT嵌入式实验室2023级C语言训练1-4章训练题

文章目录 前言1. 判断闰年2.(ab-c)*d的计算问题3.计算三角形的周长和面积4.牛牛的等差数列5.判断字母6.网购7. 牛牛的通勤8.获得月份天数9.大小写转换10.KiKi说祝福语11.小乐乐求和12.奇偶统计13.KiKi求质数个数14.乘法表15.牛牛学数列16.牛牛学数列217.数位之和18.魔法数字变换…

Android---OkHttp详解

OkHttp 是一套处理 HTTP 网络请求的依赖库,由 Square 公司设计研发并开源,目前可以在 Java 和 Kotlin 中使用。对于 Android App,OkHttp 现在几乎已经占据了所有的网络请求操作。RetroFit OkHttp 实现网络请求似乎成了一种标配。 因此&…

【每日一题】—— 最大素因子

🌏博客主页:PH_modest的博客主页 🚩当前专栏:每日一题 💌其他专栏: 🔴 每日反刍 🟡 C跬步积累 🟢 C语言跬步积累 🌈座右铭:广积粮,缓称…