最新的AIGC相关技术更新

news2025/1/10 16:39:18

1.腾讯发布PhotoMaker

《PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding》
作者机构:南开大学&腾讯 PCG ARC 实验室&东京大学

相关链接

[Paper] [Code] [Demo] [Model Card] [BibTeX]

在这里插入图片描述
摘要
文本到图像生成的最新进展在根据给定文本提示合成逼真的人类照片方面取得了显着进展。然而,现有的个性化生成方法无法同时满足高效率、有前途的身份(ID)保真度和灵活的文本可控性的要求。在这项工作中,文章介绍了PhotoMaker,一种高效的个性化文本到图像生成方法,它主要将任意数量的输入 ID 图像编码为堆栈 ID 嵌入,以保存 ID 信息。这种嵌入作为统一的ID表示,不仅可以全面封装同一输入ID的特征,而且可以容纳不同ID的特征以便后续集成。这为更有趣且具有实际价值的应用铺平了道路。此外,为了推动 PhotoMaker 的训练,文章提出了一个面向 ID 的数据构建管道来组装训练数据。在通过所提出的管道构建的数据集的滋养下,我们的 PhotoMaker 表现出了比基于测试时微调的方法更好的 ID 保存能力,同时提供了显着的速度改进、高质量的生成结果、强大的泛化能力和广泛的应用程序。

方法
文中的方法将一些具有相同身份的输入图像转换为堆叠的 ID 嵌入。这种嵌入可以看作是要生成的ID的统一表示。在推理阶段,构成堆叠ID嵌入的图像可以源自不同的ID。然后我们可以在不同的上下文中合成定制的 ID。
在这里插入图片描述首先分别从文本编码器和图像编码器获得文本嵌入和图像嵌入。然后,通过合并相应的类嵌入(例如,男人和女人)和每个图像嵌入来提取融合嵌入。接下来,我们沿着长度维度连接所有融合的嵌入以形成堆叠的 ID 嵌入。最后,将堆叠的 ID 嵌入提供给所有交叉注意力层,以自适应地合并扩散模型中的 ID 内容。请注意,虽然在训练过程中使用具有遮蔽背景的相同ID的图像,但可以在推理过程中直接输入不同ID的图像而没有背景失真来创建新的ID。

2.智谱AI推出GLM-4 All Tools和GLMs

GLM-3开源地址:THUDM/ChatGLM3
chatGLM相关历程:chatglm.cn/blog
智谱清言体验最新版 GLM4 All tools
API平台 最新版API

2024年1月16日,在智谱AI技术开放日上,智谱AICEO张鹏发布新一代底层大模型GLM-4。据介绍,GLM-4性能相比GLM-3提升60%,逼近GPT-4(2023年11月6日最新版本效果)。同时智谱AI发布了GLMs,为所有开发者提供AI智能体定制能力,依靠简单的prompt指令创建个性化GLM智能体。
在这里插入图片描述
GLM-4 All Tools实现了根据用户意图自动理解规划复杂的指令,自动调用多项工具来完成复杂任务,包括文生图、代码解释器、网页浏览、Function Call等。这意味着GLM系列模型的全家桶能力实现工业化,开发者及用户可以更轻松地使用GLM-4模型,不再为提示词而担心。
智谱AI宣布GLMs个性化智能体定制能力同时上线,基于GLM-4模型,任何用户只要登陆智谱清言观望,使用简单的提示词指令就能创建属于自己的智能体。在同期上线的智能体中心中,用户可分享各种智能体。没有编程基础的用户也能实现大模型的便捷开发。√

GLM-4 相关评价讨论

3.DreamDistribution(哈佛大学联合微软推文生图模型)

《DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models》—github

作者机构:南加州大学&哈佛大学&微软亚洲研究院&微软雷德蒙研究院

来自南加州大学、哈佛大学等机构的研究团队最近提出了一项创新性的生成模型方法,名为DreamDistribution。这一方法基于提示学习,能够通过仅有的几张参照图片学习文本提示分。
DreamDistribution找到参考图像的提示分布,然后可用于生成新的 2D/3D 实例,能够进行文本引导编辑等。
在这里插入图片描述
摘要
文本到图像(T2I)扩散模型的普及使得从文本描述生成高质量图像成为可能。然而,生成具有参考视觉属性的多样化定制图像仍然具有挑战性。这项工作的重点是在更抽象的概念或类别级别个性化 T2I 扩散模型,适应一组参考图像的共性,同时创建具有足够变化的新实例。我们引入了一种解决方案,允许预训练的 T2I 扩散模型学习一组软提示,从而通过从学习的分布中采样提示来生成新颖的图像。这些提示提供了文本引导的编辑功能以及控制多个发行版之间的变化和混合的额外灵活性。我们还展示了学习到的提示分布对其他任务(例如文本转 3D)的适应性。最后,我们通过定量分析(包括自动评估和人工评估)证明了我们方法的有效性。

方法:
保留一组 K 个可学习的软提示,并在 CLIP 文本编码器特征空间中对它们的分布进行建模。只有提示是可以学习的,CLIP编码器和T2I扩散模型都是固定的。使用重新参数化技巧从提示分布中进行采样,并通过反向传播更新可学习的提示。训练目标是使生成的图像与参考图像对齐。纳入额外的正交损失以促进可学习提示之间的区分。为了进行推理,同样从文本特征空间的提示分布中进行采样,以指导预训练的 T2I 生成。
在这里插入图片描述
关注@funyai分享更多最新的前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1389893.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp自带的选择日期的使用

年月日的下拉框 直接看代码 <view class"uni-title uni-common-pl">日期选择器</view><view class"uni-list"><view class"uni-list-cell"><view class"uni-list-cell-left">当前选择</view>&…

Linux第29步_安装“Notepad++”软件

STM32CubeProgrammer脚本文件的后缀为“.tsv”&#xff0c;ST公司官方也叫做FlashLayout。在烧写“TF-A固件”之前&#xff0c;我们需要用“Notepad”软件打开“后缀为.tsv”的脚本文件&#xff0c;根据需求决定哪些文件需要更新&#xff0c;设置好这个脚本文件。 在后期使用S…

书生·浦语大模型实战营第四节课笔记及作业

XTuner 大模型单卡低成本微调实战 1 Finetune简介 大语言模型LLM是在海量的文本内容基础上&#xff0c;以无监督或半监督方式进行训练的。海量的文本内容赋予了大模型各种各样的行业知识。但是如果直接把大模型的知识用于生产实践&#xff0c;会发现回答不大满意。微调的目的…

红队打靶练习:HOLYNIX: V1

目录 信息收集 1、arp 2、netdiscover 3、nmap 4、nikto whatweb 目录探测 1、gobuster 2、dirsearch 3、dirb 4、feroxbuster WEB sqlmap 1、爆库 2、爆表 3、爆列 4、爆字段 后台登录 1、文件上传 2、文件包含 3、越权漏洞 反弹shell 提权 总结 信息…

【Docker】网络模式➕自定义网络

&#x1f973;&#x1f973;Welcome 的Huihuis Code World ! !&#x1f973;&#x1f973; 接下来看看由辉辉所写的关于Docker的相关操作吧 目录 &#x1f973;&#x1f973;Welcome 的Huihuis Code World ! !&#x1f973;&#x1f973; 一.Docker网络模式的介绍 二. 网桥模…

[C#]winform部署官方yolov8-obb旋转框检测的onnx模型

【官方框架地址】 https://github.com/ultralytics/ultralytics 【算法介绍】 Yolov8-obb&#xff08;You Only Look Once version 8 with Oriented Bounding Boxes&#xff09;是一种先进的对象检测算法&#xff0c;它在传统的Yolov3和Yolov4基础上进行了优化&#xff0c;加…

【Java】源码文件开头添加注释

需求 应公司质量部要求&#xff0c;需要对代码做静态检查。质量部要求&#xff0c;源码文件必须在起始行起设置一些注释&#xff0c;然而项目已经开发了一年之久&#xff0c;且没有维护这个注释。 此时&#xff0c;面对好几千个源码文件&#xff0c;我们如何快速添加相应的注…

Linux命令之目录操作类和文件操作类命令mkdir,rmdir,cp, mv,rm,touch,ln,whereis,whatis的使用

一、实验题 在桌面新建目录dir1 在当前目录的dir2目录中创建subdir2子目录&#xff0c;如果dir2目录不存在则同时创建 用root身份&#xff0c;将家目录下的.bashrc复制到/tmp下&#xff0c;并更名为bashrc 变换目录到/tmp,并将/var/log/wtmp文件的所有特性都一起复制到/tmp且观…

RAG基础功能优化、以及RAG架构优化

RAG基础功能优化 对RAG的基础功能优化&#xff0c;我们要从RAG的流程入手[1]&#xff0c;可以在每个阶段做相应的场景优化。 从RAG的工作流程看&#xff0c;能优化的模块有&#xff1a;文档块切分、文本嵌入模型、提示工程优化、大模型迭代。下面针对每个模块分别做说明&#…

按钮QPushButton的简单使用

1.相关说明 设置字体居左、居中、居右、字体颜色、字体类型 2.界面绘制 3.相关主要代码 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() …

【电力电子】2 开、闭环单相桥式SPWM逆变仿真电路

【仅供参考】 【2022.11西南交大电力电子仿真】 目录 1 开环单相桥式SPWM逆变电路搭建及波形记录 2 闭环单相桥式SPWM逆变电路搭建及波形记录 1 开环单相桥式SPWM逆变电路搭建及波形记录 采用单极性调制法&#xff0c;按老师PPT&#xff08;如下图&#xff09;所示进行单相…

Server/PC 稳定性测试(Windows)

Server/PC 稳定性测试 1. CPU - 中央处理器1.1 CPU稳定性1.2 CPU温度 2. Memory - 内存2.1 内存性能 3. DISK - 硬盘3.1 HDD - 机械硬盘机械硬盘转速详解监测工具 3.2 SSD - 固态硬盘监测工具 4. 使用时长cpu能用多久&#xff1f;主板能用多久&#xff1f;内存能用多久&#xf…

移动端开发进阶之蓝牙通讯(三)

移动端开发进阶之蓝牙通讯&#xff08;三&#xff09; 移动端蓝牙通讯的主要特点是无线、便捷和高效&#xff1b; 它能够摆脱传统有线连接的束缚&#xff0c;让用户更加自由地使用设备&#xff1b; 同时&#xff0c;蓝牙通讯协议经过多年的发展和完善&#xff0c;已经具备了较…

软件测试|SQLAlchemy query() 方法查询数据

简介 上一篇文章我们介绍了SQLAlchemy 的安装和基础使用&#xff0c;本文我们来详细介绍一下如何使用SQLAlchemy的query()方法来高效的查询我们的数据。 创建模型 我们可以先创建一个可供我们查询的模型&#xff0c;也可以复用上一篇文章中我们创建的模型&#xff0c;代码如…

RabbitMQ脑裂处理

脑裂现象&#xff1a; Network partition detected Mnesia reports that this RabbitMQ cluster has experienced a network partition. There is a risk of losing data. Please read RabbitMQ documentation about network partitions and the possible solutions. 转载请在文…

山东特产,乳山生蚝有话说

牡蛎&#xff0c;又叫生蚝&#xff0c;是无数吃货钟爱的海鲜美味。爱吃生蚝的法国人称之为“海中牛奶”&#xff0c;我国民间也有说法&#xff1a;“冬至到清明&#xff0c;蚝肉肥晶晶。”说的就是眼下&#xff0c;生蚝最肥美的冬春时节&#xff0c;也是“中国牡蛎之乡”山东乳…

vue中设置注释模板

参考地址 ctrlshiftp 打开编辑器配置输入configure user snippets - 选择 new global snipp files - 命名为 vueComment&#xff0c;弹出注释模板&#xff0c;即可自定义注释 如下/// 回车 即可在代码块中使用注释 { "Print to console": {"prefix": &q…

整型和浮点数在内存中的存储

前言 我们都知道数据在计算机中是以二进制的形式存储的&#xff0c;那么问题来了&#xff0c;不同类型的数据的具体存储方式是什么&#xff0c;今天我想就整形和浮点数展开叙述。 一. 整数在内存中的存储 1.1源码&#xff0c;反码和补码 整数的2进制表⽰⽅法有三种&#xff0…

静态住宅代理与动态住宅代理的区别?如何选?

住宅代理ip分类两种类型&#xff1a;静态住宅代理和动态住宅代理&#xff0c;他们有什么区别又能用在什么场景呢&#xff1f;我们先从他们是如何运作开始。 一、什么是住宅代理ip isp住宅代理ip我们称为真人住宅代理&#xff0c;地址是从真人/家庭中出发&#xff0c;安全性更高…

软件测试|Pydantic处理时间类型数据

简介 我们之前介绍过使用pydantic验证数据&#xff0c;比如校验数据的格式等&#xff0c;但是在我们的日常工作中&#xff0c;还有一种数据是需要我们验证的&#xff0c;比如时间数据&#xff0c;时间数据不同于字符串&#xff0c;列表等数据&#xff0c;与他们的验证不一样&a…