AIGC周报|清华、北邮新研究:让文生图AI更懂你

news2025/1/19 7:51:24

AIGC通过借鉴现有的、人类创造的内容来快速完成内容创作。ChatGPT、Bard等AI聊天机器人以及Dall·E 2、Stable Diffusion等文生图模型都属于AIGC的典型案例。「AIGC技术周报」将为你带来最新的paper、博客等前瞻性研究。

OpenAGI:当大模型遇见领域专家

“愿原力与大型语言模型和领域专家同在。”

——由 ChatGPT 生成

人类的智慧有着将基础技能组合成复杂技能、进而解决复杂任务的卓越能力。该研究表示,除了开发大型、全面的智能模型外,为这些模型配备利用各种特定领域专家模型解决复杂任务的能力,对于实现通用人工智能(AGI)同样至关重要。

近期,大型语言模型(LLMs)展示了卓越的学习和推理能力,有望成为选择、综合和执行外部模型来解决复杂任务的控制器。该研究开发了一个名为 OpenAGI 的开源 AGI 研究平台,专门设计用于提供复杂的多步骤任务,并配备了特定任务的数据集、评估指标和多样化的可扩展模型。

OpenAGI 将复杂任务公式化为自然语言查询,作为输入传递给 LLMs。然后,LLMs 通过选择、综合和执行 OpenAGI 提供的模型来解决任务。此外,该研究提出了一种基于任务反馈的强化学习(RLTF)机制,使用任务解决结果作为反馈来改善 LLMs 的任务解决能力。以上,为自我改进的 AI 提供了一个反馈循环。

该研究认为,LLMs 操作各种专家模型解决复杂任务的范例,是实现 AGI 的一种有前途的方法。

论文链接:

https://arxiv.org/abs/2304.04370

清华、北邮团队:让文生图AI更懂你

文本-图像生成模型,包括自动回归和基于扩散的方法,在最近几年经历了快速的发展。然而,当前自我监督的预训练生成器还远远不够完美,一个主要的挑战在于使模型与人类的偏好相一致。

该研究提出了 ImageReward——第一个通用的文本到图像的人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。

这一模型的训练基于系统注释管道,涵盖评级和排名组件,收集了迄今为止 137000 个专家比较的数据集。在人类评估中,ImageReward 优于现有的评分方法(如比 CLIP 高出 38.6%),是文生图的理想自动评估指标。

下图展示了不同的文生图评分器中,从 64 个生成的图像中选出的 Top-1 图像。ImageReward 选择具有更好的文本连贯性和人类偏好的图像。在提示中,粗体大致表示内容,斜体表示风格或功能。

论文链接:

https://arxiv.org/abs/2304.05977

让霉霉笑得更开心,基于先验信息编辑人脸

在计算机视觉和图形学中,如何逼真地改变一张人像照片的光线、表情、头部姿势等,同时保留人物的身份和高频面部特征,是一个长期存在的问题。解决这个问题的难度,源于其根本上的欠约束性。

该研究解决了从同一个人的少量(如 20 张)肖像照片中学习特定个人面部先验信息的问题。使得编辑特定个人的外表(如表情和光线)同时保留他们的身份和高频面部细节成为可能。

该研究提出的名为 DiffusionRig 方法的关键是一个扩散模型,该模型以通过现场单个图像的现成估计器估计的粗略 3D 人脸模型为条件进行“装配”,学习将 3D 面部模型的简单渲染映射到给定人物的真实照片中。

DiffusionRig 采用粗略的物理渲染作为条件,以学习到的个人特征为基础来对输入图像进行编辑。编辑后的图像尊重渲染条件、保留身份信息,并展现高频面部细节。实验表明,DiffusionRig 在身份保存和真实感方面优于现有方法。

参考链接:

https://arxiv.org/abs/2304.06711

用“富文本”生成图像

纯文本已成为文生图的流行界面。然而,其有限的定制选项阻碍了用户准确描述所需的输出。例如,纯文本很难指定连续的数量,如精确的 RGB 颜色值或每个单词的重要性。

此外,为复杂场景创建详细的文本提示对于人类编写是繁琐的,对文本编码器来说也很难解释。为了应对这些挑战,该研究建议使用支持字体样式、大小、颜色和脚注等格式的富文本编辑器。

研究阐释了从富文本中提取每个单词的属性,以实现局部风格控制、显式标记重新加权、精确的颜色渲染和详细的区域合成,通过基于区域的扩散过程来实现这些能力。实验表明,这一方法在定量评估方面优于强基线。

此研究方法方法允许用户使用富文本编辑器描述图像,并支持各种文本属性,如字体族、大小、颜色和脚注等。根据从富文本提示中提取的这些文本属性,相较于普通文本,能够对文生图进行精确控制,涉及颜色、样式和物体细节。下图展示了分别采用普通文本(左图)与富文本(右图)生成的图片。

参考链接:

https://arxiv.org/abs/2304.06720

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/422651.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分子生物学 第五章 DNA损伤修复和突变

文章目录第五章 DNA损伤修复和突变第一节第二节 DNA损伤的类型1 造成DNA损伤的因素2 DNA损伤的类型3 DNA损伤修复机制3.1 直接修复3.2 切除修复3.3 双链断裂修复3.4 重组修复3.5 跨越合成第五章 DNA损伤修复和突变 第一节 损伤:比如碱基,甲基化 突变&…

JavaSE学习进阶day04_04 正则表达式和Lambda表达式

第六章 正则表达式(超级重要) 开发心得:看着正确数据,从左到右书写正则表达式 6.1 正则表达式的概念及演示 在Java中,我们经常需要验证一些字符串,例如:年龄必须是2位的数字、用户名必须是8位…

爬虫日常练习-协程方式爬取图片

文章目录前言代码设计前言 hello朋友们,欢迎回来。这里是无聊的网友。今天给大家分享另一种处理多任务的方法–协程 那么在开始之前我们首先要了解什么是协程。协程是在一个线程内:多个任务出现阻塞时,由envet_loop轮转查看阻塞状态&#…

Zeppelin0.9.0 连接 Hive 3.1.2(踩坑,亲测有效)

一、前提 已经安装好Hadoop、Hive(可以启动hiveserver2)、Zeppelin 1.启动Hadoop [roothurys24 ~]# start-all.sh 2.启动hiveserver2 [roothurys24 ~]# cd /opt/soft/hive312/conf/ [roothurys24 conf]# nohup ../bin/hive --service hiveserver2 &a…

kubernetes之Ingress介绍

Ingress 组成 ingress controller将新加入的Ingress转化成Nginx的配置文件并使之生效 ingress服务将Nginx的配置抽象成一个Ingress对象,每添加一个新的服务只需写一个新的Ingress的yaml文件即可工作原理 1.ingress controller通过和kubernetes api交互&#xff0…

【机器学习(五)】基于KNN模型对高炉发电量进行回归预测分析

文章目录专栏导读1、KNN简介2、KNN回归模型介绍3、KNN模型应用-高炉发电量预测3.1数据集信息:3.2属性信息3.3数据准备3.4数据标准化和划分数据集3.5寻找最佳K值3.6建立KNN模型预测4、完整代码专栏导读 ✍ 作者简介:i阿极,CSDN Python领域新星…

利用74373芯片进行单片机IO口扩展的方法介绍-成都控制设备订做

本文介绍用74373芯片进行微处理器IO口扩展的方法。 1.为什么要进行IO口扩展? 在电路设计的某些时候,微处理器(如单片机)IO口不够用了,此时该怎么办呢?利用辅助芯片进行IO口扩展是个简单直接的方法&#xff…

开源社与 Dev.Together 2022

思否与开源社携手11>2在 2023 年的春天,开源社走进了 Dev.Together 2022 的会场,一时间有种时空错觉。2022 年本该举办的开源聚会因为不可抗力的因素被延期,感谢思否一直坚持的理念:Dev.Together Summit 只做线下,将…

debian 10 安装神州通用数据库 V7.0

debian 10 安装神州通用数据库 V7.01、官方下载链接2、windows客户端下载链接3、官方安装手册4、安装前准备3.1、创建安装用户3.2、以root 用户修改神通数据库安装包的所有者为shentong 用户3.3、以root 用户创建神通数据库主目录并修改所有者为shentong 用户3.4、以root 用户临…

c/c++:顺序结构,if else分支语句,do while循环语句,switch case break语句

c/c:顺序结构,if else分支语句,do while循环语句,switch case break语句 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,此时学会c的话, 我所知道的周边的会c的同学&#xff…

一文读懂域名注册

本文深入浅出讲解域名的注册、建站和管理,通过文章可以了解以下问题: 域名注册及建站流程;域名注册的技术原理;域名管理(修改 DNS 服务器、转入转出、自定义 DNSHost、whois 信息)。 众所周知,…

【MYSQL】表的增删改查(基础)

文章目录🌷 1. 新增(Create)⭐️ 1.1 单行行数据 指定列插入⭐️ 1.2 多行数据 指定列插入🌷 2. 查询(Retrieve)⭐️ 2.1 全列查询⭐️ 2.2 指定列查询⭐️ 2.3 查询字段为表达式⭐️ 2.4 别名⭐️ 2.5 去…

十五、市场活动:excel导入

功能需求 ①用户在市场活动主页面,点击"导入"按钮,弹出导入市场活动的模态窗口; ②用户在导入市场活动的模态窗口选择要上传的文件,点击"导入"按钮,完成导入市场活动的功能. *只支持.xls *文件大小不超过5MB ③导入成功之后,提示成功导入记录条数,关闭…

(只需三步)如何用chatgpt自动生成思维导图

目录 chatgpt是可以生成思维导图的!只需三步,非常简单! 第一步:打开chatgpt,告诉它主题 第二步,完善思维导图 第三步:查看思维导图的效果 chatgpt是可以生成思维导图的!只需三步&am…

21天学会C++:Day1----C++的发展史

CSDN的uu们,大家好。这里是C入门的第一讲。 座右铭:前路坎坷,披荆斩棘,扶摇直上。 博客主页: 姬如祎 收录专栏:C专题 目录 1. 什么是C 2. C的发展史 3. C的重要性 4. 如何学好C 4.1 别人如何学C 4…

海睿思分享 | 制造业数字化转型之业务场景驱动

在开始谈业务场景驱动之前,我们先介绍一下流程驱动和数据驱动的概念。 首先数据和流程在现代制造业相辅相成,流程中有数据,数据往往通过流程传递,而“驱动”是通过建立一定的驱动机制,改变以往人为的业务推进模式&…

Android UI设计经验分享,掌握设计技巧,让你的应用独树一帜

Android UI渲染是指Android应用程序中的用户界面如何被绘制。Android UI渲染很重要,因为渲染过程直接影响应用程序的性能和用户体验。 当用户在Android应用程序中进行交互时,应用程序会相应地创建并更新UI元素,例如TextView、Button、ImageV…

速下载 | 12项网络与数据安全新国标全文公开

根据2023年3月17日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2023年第1号),全国信息安全标准化技术委员会归口的12项网络安全国家标准正式发布。近日标准全文正式公开,炼石第一时间搜集整理这…

极氪X上市,18.98万元起售,进军紧凑豪华车市场

HiEV消息(文/Amy)4月12日,纯电SUV极氪X上市,共发布三个版本,官方零售价为: •ME版 五座后驱 189,800元 •YOU版 五座四驱 209,800元 •YOU版 四座后驱 209,800元全系三款车型预计将于6月起开启交付。极氪X限…

【分布式技术专题】「单点登录技术架构」一文带领你好好对接对应的Okta单点登录实现接口服务的实现落地

什么是SAML协议 SAML(Security Assertion Markup Language)是一种基于XML的标准,用于在不同的安全域之间传递身份验证和授权数据。SAML2.0是SAML协议的最新版本,它提供了一种标准的方式来实现单点登录(SSO&#xff09…