港大、南大、清华抢先开源「复刻」版DragGAN，开箱即用！

港大、南大、清华抢先开源「复刻」版DragGAN，开箱即用！

news2026/2/13 1:55:35

来源 |新智元

还记得前几天发布的DragGAN吗？

没错，就是那个「轻轻点两下」1秒修图的工具。

拍的照片表情不好？修！脸型不够瘦？修！脸冲镜头的角度不对？修！ — ▲拍的照片表情不好？修！脸型不够瘦？修！脸冲镜头的角度不对？修！

搞不好，「让大象转个身」这个远古PS段子，可能就要成真了 — ▲搞不好，「让大象转个身」这个远古PS段子，可能就要成真了

这个AI修图工具演示视频一经发布，瞬间在国内外火得一塌糊涂。

许多网友纷纷直呼，「PS不存在了」。

还没几天，DragGAN非官方实现竟能上手试用了。这一功能已经被集成到InternGPT中，界面长这样↓

体验地址：https://igpt.opengvlab.com/ — ▲体验地址：https://igpt.opengvlab.com/

没想到，演示入口一开放，直接被挤爆。

alt

大模型研究测试传送门

ChatGPT传送门（免墙，可直接测试）：
https://yeschat.cn

GPT-4传送门（免墙，可直接测试，遇浏览器警告点高级/继续访问即可）：
https://gpt4test.com

官方演示

从官方放出的演示视频来看，再现的DragGAN效果绝了。

咧嘴笑

alt

先是怎么把一个没笑的人p笑。只要选中两个嘴角，直接Drag就好了。

可以看到，最终生成的结果毫无违和感。因为面部肌肉也在一起变化，不是单纯的咧嘴。

合上嘴

alt

脸部编辑

alt

这个瘦脸功能大家就太熟悉了，选中两个脸蛋往里挤，输出还是非常自然的。

alt

男性瘦脸。不过这个有点瘦过了，输出结果一眼假，下巴太尖了。

alt

这个必须强推！植发！多少秃头人士的福音。

alt

不过从输出结果看，就算选中额头那里，也是全部地方的毛发等比例增长，最后的结果有点像美猴王。

转脸

alt

脸部转动也是一个很实用的功能，补齐的部分非常自然。

其它功能

除了小范围的修图，InternGPT本身还有很多其它可以进行的亮眼操作。

alt

移除遮盖的对象

alt

单击想要在图片中进行操作的部分，在prompt中输入「移除」就可以了。

图像生成

alt

这个功能比较有意思，先上传一张图片，输入prompt让DragGAN分割，然后再输入一个prompt生成想要的图片。

露出黑脚了？（不是）

视频高光解说

alt

用prompt还可以一键剪辑视频。

交互式视觉问答

alt

甚至识别完图片上的信息还能联网直接查询。

交互式图像生成

alt

随手的涂鸦都能一键变成美图。

反正看完这些功能小编是真震惊了。所有功能就突出两个特点：「傻瓜式操作，且究极好用」。

这谁能不爱？

技术实现

看了这么多酷炫的功能，那么这个InternGPT到底是什么？

InternGPT（简称iGPT）/InternChat（简称iChat）是一种基于指向语言驱动的视觉交互系统，用户可以通过点击、拖动和绘制与ChatGPT进行互动。

与依赖纯语言的现有交互系统不同，通过整合指向指令，iGPT显著提高了用户与聊天机器人之间的沟通效率，以及聊天机器人在视觉为中心任务中的准确性，尤其在复杂的视觉场景中更是如此。

alt

论文地址：
https://arxiv.org/pdf/2305.05662.pdf

下图就是InternGPT的整体架构。

我们可以看到，这个GPT既可以处理图像、视频，也可以处理语音、文字。

对于图像或视频输入，InternGPT就会用SAM（图像分割模型）、OCR（图像识别模型）等等进行处理。

在识别出地理位置、物品或者线条之后，还有一整个工具箱进行进一步处理，其中都是我们耳熟能详的工具。

比如BLIP（音频）、Stable Diffusion（图像）、Pix2Pix（图像翻译）等等。

同样地，对于文字或者语音输入，InternGPT就会调用GPT-4、LLaMA等模型或工具进行处理，后续同样有一整个工具箱。

InternGPT的整体架构 — ▲InternGPT的整体架构

使用提示

而在使用过程中，整个流程也是非常方便的。

用户在图片上传成功后，可以发送如下消息与iGPT进行多模态相关的对话：

"what is it in the image?" or "what is the background color of image?".

同样，用户也可以交互式地操作、编辑或者生成图片，具体如下：

点击图片上的任意位置，然后按下 Pick 按钮，预览分割区域。也可以按下 OCR 按钮，识别具体位置处存在的所有单词；
要在图像中删除掩码区域，可以发送如下消息：

“remove the masked region”

要在图像中替换掩码的物体为其他物体，可以发送如下消息：

“replace the masked region with {your prompt}”

想生成新图像，可以发送如下消息：

“generate a new image based on its segmentation describing {your prompt}”

想通过涂鸦创建新图像，按下 Whiteboard 并在白板上绘制。绘制完成后，需要按下保存按钮并发送如下消息：

“generate a new image based on this scribble describing {your prompt}”

网友评论

那个令人震惊的DragGAN现在有一个非官方的版本。正式版本将在6月发布，这只是未来的预览。

alt

DragGAN已经集成到InternGPT了，这么快就出来了，修图神器。

alt

alt alt

参考资料

[1] https://igpt.opengvlab.com/

本文由 mdnice 多平台发布

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/581575.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

https 建立连接过程分析

https 建立连接过程分析

从真实的抓包开始根据抓包结果可以看到从客户端发起请求开始，主要经过以下几个过程： 1、TCP 三次握手 2、浏览器发送 Client Hello 到服务器 3、服务器发送Server Hello 、证书、证书状态、服务端密钥交换，到浏览器 4、浏览器发送客户端密…

阅读更多...

【Linux】搭建SFTP文件服务器

【Linux】搭建SFTP文件服务器

一、协议介绍1.1 FTP 协议1.11 特点1.12 基本工作原理 1.2 SFTP协议1.21 特点1.22 基本工作原理 1.3 ssh协议1.31 特点1.32 基本工作原理 1.4 其他常见文件传输协议二、搭建Linux的SFTP文件服务器三、连接测试3.1 电脑连接3.2 手机连接一、协议介绍 1.1 FTP 协议 1.11 特点…

阅读更多...

chatgpt赋能python：Python如何实现不换行

chatgpt赋能python：Python如何实现不换行

Python如何实现不换行 Python是一种高级编程语言，它的应用领域非常广泛，尤其是在数据分析、人工智能、网络爬虫等领域中拥有广泛的应用。而在Python中，有时候需要控制输出内容的样式，比如在输出时避免出现换行，这个需…

阅读更多...

Bootstrap中的js插件使用

Bootstrap中的js插件使用

1. 标签页 1.1 init <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevic…

阅读更多...

sqli_labs21-23

sqli_labs21-23

less21 这题是cookie注入，如果不登录进去是看不到cookie信息的，所以我们要先登录进去用户admin，密码admin 抓包后发现cookie字段有base64编码信息，选中后burp自动检测翻译既然是cookie注入并且字段是被加密了的，说明…

阅读更多...

chatgpt赋能python：Python中5/2问题引发的思考

chatgpt赋能python：Python中5/2问题引发的思考

Python中5/2问题引发的思考在Python中，我们常常遇到数字计算的问题，比如5/2。当我们在Python中执行如下代码时： print(5/2)输出结果为2.5。但是在其他编程语言中，比如C和Java，同样的计算结果是2，而不是…

阅读更多...

chatgpt赋能python：Pythonnumpy库下载教程：学习数据分析必备工具

chatgpt赋能python：Pythonnumpy库下载教程：学习数据分析必备工具

Python numpy库下载教程：学习数据分析必备工具介绍 Python是一种优秀的脚本语言，常用于数据分析、机器学习等领域，而Numpy是Python中最基础的科学计算库，提供了大量针对数组及矩阵操作的函数和方法。然而，对于初学者…

阅读更多...

jQuery元素操作和尺寸位置

jQuery元素操作和尺寸位置

1. 遍历元素 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-width,…

阅读更多...

Kubernetes_核心组件_kubelet_kubelet服务全解析

Kubernetes_核心组件_kubelet_kubelet服务全解析

文章目录前言一、查看kubelet当前运行1.1 查看kubelet当前运行1.2 kubelet配置文件1.3 kubelet启动参数文件1.4 kubelet启动全过程 (自定义启动参数文件) 二、kubelet启动过程2.1 kubelet启动过程2.2 自定义kubelet所有文件并运行步骤1：新建静态token文件和user&am…

阅读更多...

$Fourier分析入门——第11章——Fourier变换$

Fourier分析入门——第11章——Fourier变换

目录第11章 Fourier变换(Transform) 11.1 引言 11.2 逆向正弦和余弦变换(The Inverse Cosine and Sine Transforms) 11.3 正向正弦和余弦变换(The Forward Cosine and Sine Transforms) 11.4 离散谱对比谱密度(Discret spectra vs. spectral density) 11.5 Fourier变换的…

阅读更多...

chatgpt赋能python：Python中4.5/2等于多少？——解密Python的除法运算

chatgpt赋能python：Python中4.5/2等于多少？——解密Python的除法运算

Python中4.5/2等于多少？——解密Python的除法运算 Python作为一种常用的编程语言，在业界有着广泛的应用。而除法是Python中常用的运算之一。但是，当我们输入4.5/2时，会得到什么样的结果呢？这篇文章将解密Python的除法…

阅读更多...

Spring Boot：从入门到实践的全面指南

Spring Boot：从入门到实践的全面指南

文章目录 1. Spring Boot简介及特性1.1 简介：什么是Spring Boot1.2 特性：Spring Boot的优势与特点1.3 四大核心：Spring Boot的核心组成 2. Spring Boot入门案例2.1 Spring Boot项目开发步骤2.2 创建一个Spring MVC的Spring Boot Controller2.…

阅读更多...

chatgpt赋能python：Python不能参加奥赛的原因

chatgpt赋能python：Python不能参加奥赛的原因

Python不能参加奥赛的原因 Python 是一种广泛使用的高级编程语言，以其简单易学、可读性高等特点受到了众多程序员的喜爱，但是它在国际奥林匹克竞赛中并不被允许参赛。本文将会介绍 Python 不能参加奥赛的原因，并且分析该限制是否合理。原因…

阅读更多...

使用 GitHub Actions 自动部署 Hexo 个人博客

使用 GitHub Actions 自动部署 Hexo 个人博客

文章目录申请 GitHub Token源码仓库配置 Github Action重新设置远程仓库和分支查看部署每次部署 Hexo 都需要运行 hexo cl & hexo g & hexo d 指令三件套完成推送到远程仓库，随着文章越来越多，编译的时间也会越来越长，通过 Github …

阅读更多...

前缀树概念

前缀树概念

前缀树（prefix tree） 准备一个Str[]，数组中元素有[“abc”,“bcd”,“abg”,“bcde”,“qwe”]，如何将数组中元素加到树中呢？ 从最开始的字符串abc说，第一个字符是a，从一个空的头节点出发&#…

阅读更多...

jQuery属性操作和内容文本值

jQuery属性操作和内容文本值

1. 属性操作 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-width,…

阅读更多...

全局CSS样式1

全局CSS样式1

1. 响应式基础 1.1 init <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equiv"X-UA-Compati…

阅读更多...

chatgpt赋能python：Python两行三列列表：更高效的数据展示方式

chatgpt赋能python：Python两行三列列表：更高效的数据展示方式

Python 两行三列列表：更高效的数据展示方式在Python编程中，经常会需要对数据进行展示。而最常见的方式则是使用列表。然而，当数据量较大时，传统的列表显示方式显得过于冗长。Python两行三列列表的使用，不仅可以增加代…

阅读更多...

chatgpt赋能python：Python不挂科，学会这些技能就足够

chatgpt赋能python：Python不挂科，学会这些技能就足够

Python不挂科，学会这些技能就足够 Python已成为现代编程语言中最受欢迎的一种，它擅长处理数据、人工智能等复杂的软件开发任务。互联网时代的到来也让Python的使用场景更加广泛，从前后端开发到数据分析。无论是学习Python的初学者还是有一定…

阅读更多...

MQTT（3）：MQTT协议原理

MQTT（3）：MQTT协议原理

官方文档中对于MQTT协议包的结构有着具体的说明：http://mqtt.org/documentation 在MQTT协议中，一个MQTT数据包由：固定头（Fixed header）、可变头（Variable header）、消息体（payload&…

阅读更多...

推荐文章

最新文章