AIGC技术周报｜清华、北邮新研究：让文生图AI更懂你

news2025/7/15 0:27:41

AIGC通过借鉴现有的、人类创造的内容来快速完成内容创作。ChatGPT、Bard等AI聊天机器人以及Dall·E 2、Stable Diffusion等文生图模型都属于AIGC的典型案例。「AIGC技术周报」将为你带来最新的paper、博客等前瞻性研究。

OpenAGI：当大模型遇见领域专家

“愿原力与大型语言模型和领域专家同在。”

——由 ChatGPT 生成

人类的智慧有着将基础技能组合成复杂技能、进而解决复杂任务的卓越能力。该研究表示，除了开发大型、全面的智能模型外，为这些模型配备利用各种特定领域专家模型解决复杂任务的能力，对于实现通用人工智能（AGI）同样至关重要。

近期，大型语言模型（LLMs）展示了卓越的学习和推理能力，有望成为选择、综合和执行外部模型来解决复杂任务的控制器。该研究开发了一个名为 OpenAGI 的开源 AGI 研究平台，专门设计用于提供复杂的多步骤任务，并配备了特定任务的数据集、评估指标和多样化的可扩展模型。

OpenAGI 将复杂任务公式化为自然语言查询，作为输入传递给 LLMs。然后，LLMs 通过选择、综合和执行 OpenAGI 提供的模型来解决任务。此外，该研究提出了一种基于任务反馈的强化学习（RLTF）机制，使用任务解决结果作为反馈来改善 LLMs 的任务解决能力。以上，为自我改进的 AI 提供了一个反馈循环。

该研究认为，LLMs 操作各种专家模型解决复杂任务的范例，是实现 AGI 的一种有前途的方法。

论文链接：

https://arxiv.org/abs/2304.04370

清华、北邮团队：让文生图AI更懂你

文本-图像生成模型，包括自动回归和基于扩散的方法，在最近几年经历了快速的发展。然而，当前自我监督的预训练生成器还远远不够完美，一个主要的挑战在于使模型与人类的偏好相一致。

该研究提出了 ImageReward——第一个通用的文本到图像的人类偏好奖励模型——来解决生成模型中的各种普遍问题，并使它们与人类价值观和偏好保持一致。

这一模型的训练基于系统注释管道，涵盖评级和排名组件，收集了迄今为止 137000 个专家比较的数据集。在人类评估中，ImageReward 优于现有的评分方法（如比 CLIP 高出 38.6%），是文生图的理想自动评估指标。

下图展示了不同的文生图评分器中，从 64 个生成的图像中选出的 Top-1 图像。ImageReward 选择具有更好的文本连贯性和人类偏好的图像。在提示中，粗体大致表示内容，斜体表示风格或功能。

论文链接：

https://arxiv.org/abs/2304.05977

让霉霉笑得更开心，基于先验信息编辑人脸

在计算机视觉和图形学中，如何逼真地改变一张人像照片的光线、表情、头部姿势等，同时保留人物的身份和高频面部特征，是一个长期存在的问题。解决这个问题的难度，源于其根本上的欠约束性。

该研究解决了从同一个人的少量（如 20 张）肖像照片中学习特定个人面部先验信息的问题。使得编辑特定个人的外表（如表情和光线）同时保留他们的身份和高频面部细节成为可能。

该研究提出的名为 DiffusionRig 方法的关键是一个扩散模型，该模型以通过现场单个图像的现成估计器估计的粗略 3D 人脸模型为条件进行“装配”，学习将 3D 面部模型的简单渲染映射到给定人物的真实照片中。

DiffusionRig 采用粗略的物理渲染作为条件，以学习到的个人特征为基础来对输入图像进行编辑。编辑后的图像尊重渲染条件、保留身份信息，并展现高频面部细节。实验表明，DiffusionRig 在身份保存和真实感方面优于现有方法。

参考链接：

https://arxiv.org/abs/2304.06711

用“富文本”生成图像

纯文本已成为文生图的流行界面。然而，其有限的定制选项阻碍了用户准确描述所需的输出。例如，纯文本很难指定连续的数量，如精确的 RGB 颜色值或每个单词的重要性。

此外，为复杂场景创建详细的文本提示对于人类编写是繁琐的，对文本编码器来说也很难解释。为了应对这些挑战，该研究建议使用支持字体样式、大小、颜色和脚注等格式的富文本编辑器。

研究阐释了从富文本中提取每个单词的属性，以实现局部风格控制、显式标记重新加权、精确的颜色渲染和详细的区域合成，通过基于区域的扩散过程来实现这些能力。实验表明，这一方法在定量评估方面优于强基线。

此研究方法方法允许用户使用富文本编辑器描述图像，并支持各种文本属性，如字体族、大小、颜色和脚注等。根据从富文本提示中提取的这些文本属性，相较于普通文本，能够对文生图进行精确控制，涉及颜色、样式和物体细节。下图展示了分别采用普通文本（左图）与富文本（右图）生成的图片。

参考链接：

https://arxiv.org/abs/2304.06720

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/454525.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

ctfshow_WEB_web2 wp

ctfshow_WEB_web2 wp

前言写这个是因为。。。我想摆烂，就去从最简单的题开始做了，想着交一道题是一道嘛，总之觉得这样做很适合欺骗安慰自己（逃然后我发现我错了，我第二道题就做了好久还没做出来，甚至最后去点开了hint…… ps…

阅读更多...

多数据源事务

多数据源事务

使用 DATASOURCE 模式后，可能一个操作涉及到多个数据源。例如说：创建租户时，即需要操作主库，也需要操作租户库。考虑到多数据的数据一致性，我们会采用事务的方式，而使用 Spring 事务时，会存在…

阅读更多...

FTP服务--文件传输协议

FTP服务--文件传输协议

FTP服务--文件传输协议一、FTP服务端口二、FTP服务主动模式与被动模式三、FTP服务配置方法设置匿名用户访问的FTP服务(最大权限)配置文件中常见字段的含义一、FTP服务端口 FTP服务器默认使用TCP协议的20,21端口与客户端进行通信 20端口：用于建立数据连接&#x…

阅读更多...

GDB调试的基本使用、GDB调试多进程

GDB调试的基本使用、GDB调试多进程

1. 编译时加选项-g，生成具有调试信息的程序 gcc -g test.c -o test 2. 启动GDB （1）启动GDB： gdb test （2）设置运行时参数：（主函数中可接收运行时参数） set args //…

阅读更多...

设计模式实现之state模式

设计模式实现之state模式

状态模式的定义：Allow an object to alter its behavior when its internal state changes. The object will appear to change its class.（当一个对象在状态改变时允许其改变行为，这个对象看起来像其改变了其类）。一个对象可以…

阅读更多...

KVM Bridge 配置

KVM Bridge 配置

目录 Bridge方式原理网桥方式配置步骤 1、编辑修改网络设备脚本文件，增加网桥设备br0 2、编辑修改网络设备脚本文件，修改网卡设备ens33 3、重启宿主机查看配置虚拟机配置 Bridge方式原理如上图，网桥的基本原理就是创建一个网桥并将…

阅读更多...

IOC使用Spring实现附实例详解

IOC使用Spring实现附实例详解

目录一、相关导读 1. Maven系列专栏文章 2. Mybatis系列专栏文章 3. Spring系列专栏文章二、前言 Spring简介 Spring体系结构三、Spring实现IOC 1. 创建Maven工程，引入对应依赖 2. 创建实体类，Dao接口及实现类 3. 编写xml配置文件 4. 测试…

阅读更多...

【翻译一下官方文档】之uniapp基础内容

【翻译一下官方文档】之uniapp基础内容

目录表单控件绑定 v-model v-model结合表单 easycom组件规范传值 prop emit 表单控件绑定 v-model 你可以用 v-model 指令在表单 input、textarea 及 select 元素上创建双向数据绑定。它会根据控件类型自动选取正确的方法来更新元素。尽管有些神奇，但 v-mo…

阅读更多...

如何高效提高倾斜摄影三维模型顶层合并的技术方法分析

如何高效提高倾斜摄影三维模型顶层合并的技术方法分析

如何高效提高倾斜摄影三维模型顶层合并的技术方法分析 1、倾斜摄影三维模型顶层合并 1.1倾斜摄影三维模型是一种基于倾斜摄影技术，通过多个角度拍摄同一区域的影像，利用计算机图像处理和三维重建技术生成的三维地理信息数据。由于一个大区域可能需要多块…

阅读更多...

智能家居代码架构---简单工厂模式

智能家居代码架构---简单工厂模式

(11条消息) 智能家居 (10) ——人脸识别祥云平台编程使用(编译libcurl库支持SSL，安装SSL依赖库libssl、libcrypto)openssl 依赖库行稳方能走远的博客-CSDN博客看上面这个博客的往期文章代码设计经验的总结，稳定，拓展性更强。一系列编程思…

阅读更多...

倾斜摄影三维模型格式转换OSGB 到3Dtitles 实现的常用技术方法

倾斜摄影三维模型格式转换OSGB 到3Dtitles 实现的常用技术方法

倾斜摄影三维模型格式转换OSGB 到3Dtitles 实现的常用技术方法倾斜摄影三维模型是一种用于建立真实世界三维场景的技术，常用于城市规划、土地管理、文化遗产保护等领域。在倾斜摄影模型中，OSGB格式和3Dtiles格式都是常见的数据格式。其中，OS…

阅读更多...

IJKPLAYER源码分析-主结构

IJKPLAYER源码分析-主结构

前言本文主要分析IJKPLAYER源码软解主流程，硬解将另起一篇分析。所用IJKPLAYER版本号： #define IJKPLAYER_VERSION "f0.7.17-28-gd7040f97" 主结构 IJKPLAYER播放器的解协议、解复用、解码、音视频同步与显示播放，以及主要线程等…

阅读更多...

智能家居项目整合（网络控制线程、语音控制线程，火灾报警线程）

智能家居项目整合（网络控制线程、语音控制线程，火灾报警线程）

mainPro.c（主函数） #include <stdio.h> #include <string.h> #include "contrlEquipments.h" #include "inputCommand.h" #include <pthread.h> #include <unistd.h>struct Equipment *findEquipByName(ch…

阅读更多...

人工智能在医疗保健中的应用与创新

人工智能在医疗保健中的应用与创新

引言随着科技的不断发展，人工智能（AI）逐渐在各个领域展现出巨大的潜力，特别是在医疗保健行业。人工智能技术的引入为医疗保健领域带来了创新的诊断和治疗方法，提高了病患的生活质量和医疗保健效率。本文将探讨人工智…

阅读更多...

倾斜摄影三维模型轻量化过程中遇到的常见问题分析，如何处理这些问题？

倾斜摄影三维模型轻量化过程中遇到的常见问题分析，如何处理这些问题？

倾斜摄影三维模型轻量化过程中遇到的常见问题分析，如何处理这些问题？ 在倾斜摄影超大场景的三维模型轻量化过程中，常见的问题包括： 1、精度损失。为了减小数据文件大小，轻量化处理可能会破坏原始数据的精度&#xff0…

阅读更多...

数字未来：世界正走向新的“破茧时刻”

数字未来：世界正走向新的“破茧时刻”

著名科学史专家亚历山大柯瓦雷，在《从封闭世界到无限宇宙》展示了一段非常神奇的历史现象：人类从笃信自己生活在一个封闭空间，到认识浩瀚无垠的宇宙，其实并没有耗费很长时间。自1543年哥白尼发布《天体运行论》，到牛顿…

阅读更多...

基于深度学习和生理信号的疾病筛查：个体内和个体间研究的价值与应用

基于深度学习和生理信号的疾病筛查：个体内和个体间研究的价值与应用

一、引言随着深度学习技术的飞速发展，基于生理信号的疾病筛查和诊断方法在医学领域得到了广泛应用。这些方法通常利用个体内和个体间的生理信号数据，通过训练深度学习模型实现疾病的自动识别和预测。本文将讨论个体内和个体间研究在这一领域的价值和应…

阅读更多...

Windows下virtualbox相关软件安装设置全过程

Windows下virtualbox相关软件安装设置全过程

一、下载 virtual box 程序 virtual box扩展程序-Oracle_VM_VirtualBox_Extension_Pack-7.0.8.vbox-extpack Virtualbox GuestAdditions 程序-解决分辨率，主机虚拟机之间共享文件、剪贴板等问题 http://download.virtualbox.org/virtualbox/7.0.8/ 或者 virtual b…

阅读更多...

倾斜摄影三维模型转换3DTILTES格式遇到的常见问题

倾斜摄影三维模型转换3DTILTES格式遇到的常见问题

倾斜摄影三维模型转换3DTILTES格式遇到的常见问题将倾斜摄影三维模型从OSGB格式转换为3DTILES格式时，常见的问题包括： 1、3D Tiles生成时间较长：由于3D Tiles是一种高效的地理数据存储格式，能够支持海量的空间数据呈现和查询&am…

阅读更多...

【LeetCode: 5. 最长回文子串 | 暴力递归=＞记忆化搜索=＞动态规划 =＞中心扩展法】

【LeetCode: 5. 最长回文子串 | 暴力递归=＞记忆化搜索=＞动态规划 =＞中心扩展法】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持，因为它具有很高的价值，算法就是这样✨ 🌲 作者简介：硕风和炜，…

阅读更多...

推荐文章

最新文章