文献研读|AIGC溯源场景及研究进展

news2025/1/12 20:05:55

前言:本文介绍关于AIGC生成阶段针对不同溯源场景的几篇相关工作。

如下图所示,在AIGC生成阶段,有4种溯源场景:

1)生成模型溯源训练数据
2)微调模型溯源预训练模型
3)AIGC溯源训练数据/训练概念
4)AIGC溯源生成模型
在这里插入图片描述
下面分别对不同溯源场景下的相关工作进行介绍。


目录

  • Detection and Attribtion of Models Trained on Generated Data. ICASSP, 2024.
  • Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models. ACL, 2023.
  • Evaluating Data Attribution for Text-to-Image Models. ICCV, 2023.
    • 数据集构建
    • 特征提取器训练
  • ProMark: Proactive Diffusion Watermarking for Causal Attribution. CVPR, 2024.
  • DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Generation Models, CCS, 2023.


Detection and Attribtion of Models Trained on Generated Data. ICASSP, 2024.

Scenario: 生成模型溯源训练数据

RQ1:模型的训练数据为 real data / fake data?
RQ2:若模型的训练数据为 fake data,则由哪个 GAN 生成?

目标:判断 target model 的训练数据来源

核心思想:
Real dataset 分成:training data, probing dataset,testing data.

  1. 首先用 training data 训练 GANs,得到 GAN-generated data;
  2. 分别用 GAN-generated data 和 real data 训练 surrogate models 和 target models;
  3. 使用 probing dataset 探测 surrogate model 得到 output,用GAN数据训练的 surrogate model 的输出标签均为0,用真实数据训练的 surrogate model 的输出标签均为1,得到 binary dataset;
  4. 使用 binary dataset 训练 detector 。
  5. 使用 testing dataset 探测 target model 得到 output,如果该 target model 基于GAN数据训练,则其 output 送入 detector 的预测标签应该为0,否则应该为1.
    在这里插入图片描述

若为溯源问题,则对于步骤3:

  • Closed-World Attribution:binary dataset 改成多标签分类问题
  • Open-World Attribution:probing set 改为GAN生成数据,若probe image 和 model 训练使用的GAN数据来源一致,则标签为 1。

Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models. ACL, 2023.

Scenario: 微调模型溯源预训练模型
在这里插入图片描述
Code: https://github.com/IBM/model-attribution-in-machine-learning

核心思想:通过联合微调模型与预训练模型生成结果与提示词的特征,训练分类器,采用集成学习的方式确定微调模型对应的预训练模型。
在这里插入图片描述


Evaluating Data Attribution for Text-to-Image Models. ICCV, 2023.

Page: https://github.com/peterwang512/GenDataAttribution

Scenario: AIGC 溯源训练数据

核心思想:首先构建具有对应关系的溯源数据集,然后使用对比学习的方式,优化特征提取器。

在这里插入图片描述

数据集构建

在这里插入图片描述

特征提取器训练

在这里插入图片描述

特征提取器训练的目标是:使得具有对应关系的合成图像+范本图像距离更近,而无对应关系的合成图像+范本图像距离更远。具体使用对比学习损失来进行训练。


ProMark: Proactive Diffusion Watermarking for Causal Attribution. CVPR, 2024.

Scenario: AIGC 溯源训练概念(概念水印)
在这里插入图片描述

核心思想:使用水印嵌入的方式,实现概念水印的嵌入和提取。

在这里插入图片描述


DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Generation Models, CCS, 2023.

Scenario: AIGC 溯源生成模型

在这里插入图片描述

核心思想:训练二/多分类器,溯源生成模型。

(1)Image-Only: image 特征提取,后训练(ResNet-18)
(2)Hybrid: image 和 prompt 的特征联合提取拼接,后训练(CLIP+MLP)

在这里插入图片描述


参考文献

  1. Han G, Salem A, Li Z, et al. Detection and Attribution of Models Trained on Generated Data. ICASSP, 2024.
  2. Foley M, Rawat A, Lee T, et al. Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models. ACL, 2023.
  3. Wang S Y, Efros A A, Zhu J Y, et al. Evaluating data attribution for text-to-image models. ICCV, 2023.
  4. Asnani V, Collomosse J, Bui T, et al. ProMark: Proactive Diffusion Watermarking for Causal Attribution. CVPR, 2024.
  5. Sha Z, Li Z, Yu N, et al. De-fake: Detection and attribution of fake images generated by text-to-image generation models. CCS, 2023.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1565718.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

休闲娱乐代理售票系统的设计与实现|Springboot+ Mysql+Java+ B/S结构(可运行源码+数据库+设计文档)折扣票,退票信息,订单信息,出票信息,公告信息,个人中心

本项目包含可运行源码数据库LW,文末可获取本项目的所有资料。 推荐阅读300套最新项目持续更新中..... 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 2024年56套包含ja…

2024年全新靠谱的FTP替代升级解决方案

随着企业规模的扩大和业务的多元化,传统的TCP协议在数据传输效率上逐渐显现出局限性。TCP协议虽然以其稳定性和可靠性被广泛应用,但在面对大规模数据传输时,其性能瓶颈逐渐成为企业发展的阻碍。同时,基于TCP的应用协议如Telnet、F…

【采购季即将结束】阿里云 腾讯云 部分性价比机型价格回调下架 抓住采购季尾声!游戏云服务器价格对比表 已更新!低至50/年

更新日期:4月3日(阿里云价格回调 6个月无折扣,京东云采购季持续进行) 本文纯原创,侵权必究 【云服务器推荐】价格对比!阿里云 京东云 腾讯云 选购指南视频截图 《最新对比表》已更新在文章头部—腾讯云文…

关于 ulimit 的两个天坑

稍微有点 Linux 经验的人一定会遇到过 “Too many open files” 错误,这个错误本质是 ulimit 设置不合理导致的。关于 ulimit 设置,有哪些需要注意的点呢?本文给大家做一个介绍,希望对大家有所帮助。 如何确认 ulimit 设置生效了…

Redis热点Key问题分析与解决

目录 一、问题现象描述 二、什么是热点Key 三、热点Key的危害 3.1 Redis节点负载过高 3.2 Redis集群负载不均 3.3 Redis集群性能下降 3.4 数据不一致 3.5 缓存击穿 四、热点Key产生的原因分析 4.1 热点数据 4.2 业务高峰期 4.3 代码逻辑问题 五、如何检测热点Key …

redis 缓存穿透 击穿 雪崩 的原因及解决方法

一 总结 1,原因及解决办法 ① 缓存穿透:大量请求根本不存在的key(下文详解) ② 缓存雪崩:redis中大量key集体过期(下文详解) ③ 缓存击穿:redis中一个热点key过期(大量…

基于java+springboot+vue实现的仓库管理系统(文末源码+Lw)23-115

摘 要 使用旧方法对仓库管理系统的信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在仓库管理系统的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。这次开发的仓库管理…

ELK报错,索引变成只读状态。

问题描述 今天发现当天的索引在ES中并没有创建,logstash中不停的报错: [2021-05-24T05:47:51,904][INFO ][logstash.outputs.elasticsearch] retrying failed action with response code: 403 ({“type”>“cluster_block_exception”, “reason”&g…

java学习之路-类和对象

前言 本文内容: 类的定义及其使用 this的引用 对象的构造及初始化 封装 static成员 代码块讲解 内部类 文章目录 1.类定义和使用 1.1了解什么是面向对象 1.2简单认识类 1.3定义类 1.4栗子 2.类的使用-类的实例化 2.1什么是实例化 2.2类和对象的说明 3.this引…

备忘录误删怎么恢复?误删备忘录快速回复攻略

在日常生活和工作中,备忘录是我们不可或缺的好帮手,能帮助我们记录生活及工作中的重要内容。然而,一不小心误删了重要内容,往往会给我们带来不小的麻烦。那么,当这种情况发生时,我们该如何迅速找回误删的备…

C++算法——二分法查找

一、二分查找算法思想和模版 1.算法思想 2.细节处理 3.模板 二、二分查找 1.链接 704. 二分查找 - 力扣(LeetCode) 2.描述 3.思路 先从最经典的题目去切入,思路就是二分查找,这里我们认为,目标值既可以看作为左部…

Oracle基础【7-Oracle中RMAN恢复管理器】

🌈个人主页:godspeed_lucip 🔥 系列专栏:Oracle从基础到进阶 本文对应Oracle实验报告源文件下载:公众号程序员刘同学回复oracle实验获取下载链接 实验七 RMAN恢复管理器一、实验目的二、实验环境三、实验内容1 为备份…

第12章 集合框架

一 集合框架概述 1.1 生活中的容器 1.2 数组的特点与弊端 一方面,面向对象语言对事物的体现都是以对象的形式,为了方便对多个对象的操作,就要对对象进行存储。另一方面,使用数组存储对象方面具有一些弊端,而Java 集合…

WebGIS 地铁交通线网 | 图扑数字孪生

数字孪生技术在地铁线网的管理和运维中的应用是一个前沿且迅速发展的领域。随着物联网、大数据、云计算以及人工智能技术的发展,地铁线网数字孪生在智能交通和智慧城市建设中的作用日益凸显。 图扑软件基于 HTML5 的 2D、3D 图形渲染引擎,结合 GIS 地图…

OmniGraffle Pro for mac 出色的图形设计软件

OmniGraffle Pro是一款非常出色的图形设计软件,它主要适用于Mac和iPad平台,可以用来轻松绘制各种精美的图表、示意图和界面设计。 软件下载:OmniGraffle Pro for mac中文注册激活版 以下是OmniGraffle Pro的一些主要特点和功能: 界…

JavaScript常用知识面试题day01

大家好我是没钱的君子下流坯,用自己的话解释自己的知识 前端行业下坡路,甚至可说前端已死,我还想在前段行业在干下去,所以从新开始储备自己的知识。 从CSS——>Javascript——>VUE2——>Vuex、VueRouter、webpack——>…

【学习笔记】java项目—苍穹外卖day09

文章目录 用户端历史订单模块1. 查询历史订单1.1 需求分析和设计1.2 代码实现1.2.1 user/OrderController1.2.2 OrderService1.2.3 OrderServiceImpl1.2.4 OrderMapper1.2.5 OrderMapper.xml1.2.6 OrderDetailMapper 1.3 功能测试 2. 查询订单详情2.1 需求分析和设计2.2 代码实…

HTML代码加固:保障网站安全

引言 HTML是网站开发的基础语言,它的安全性直接关系到网站的安全性。为了保障网站的安全性,我们需要加固HTML代码。本文将介绍一些具体方法,帮助你加固HTML代码,提高网站的安全性。 摘要 本文将介绍以下几种方法来加固HTML代码…

新能源汽车充电桩主板产业链解析

新能源汽车充电桩主控制板,简称汽车充电桩主板,是充电桩设施的核心部件,主要负责控制充电桩的整体运行和管理充电过程。了解汽车充电桩主板的整体产业链是非常重要的,这可以帮助您更好地了解供应链、采购渠道以及行业发展趋势。 产…

【C++】二分查找算法(模板)

重点 只需要记住两点: 1.left right 时,一定就是最终结果(包括找不到目标值),无需再次判断,如果判断就会死循环 2.求中点如果是求左端点 mid left (right - left)/2 如果是求右端点 mid left (right -…