计算机视觉——JPEG AI 标准发布了图像压缩新突破与数字图像取证的挑战及应对策略

news2025/4/19 15:17:25

概述

今年2月,经过多年旨在利用机器学习技术开发一种更小、更易于传输和存储且不损失感知质量的图像编解码器的研究后,JPEG AI国际标准正式发布。

PSNR与JPEG AI对比

来自JPEG AI官方发布流,峰值信噪比(PSNR)与JPEG AI的机器学习增强方法的对比。

这一技术问世鲜有媒体报道的一个可能原因是,此次发布的核心PDF文件无法通过像Arxiv这样的免费访问平台获取。尽管如此,Arxiv此前已经发表了多项研究,探讨了JPEG AI在多个方面的重要意义,包括该方法不常见的压缩伪影及其对图像鉴伪的重要性。

JPEG AI文本效果

一项研究比较了包括JPEG AI早期草案版本在内的压缩伪影,发现新方法有使文本模糊的倾向 —— 在编解码器可能成为证据链一部分的情况下,这可不是小事。

由于JPEG AI改变图像的方式与合成图像生成器产生的伪影相似,现有的鉴伪工具难以区分真实图像和伪造图像:

JPEG AI压缩前后对比

根据最近一篇论文(2025年3月),经过JPEG AI压缩后,最先进的算法在定位图中已无法可靠地区分真实内容和被篡改区域。左侧的原始示例是被篡改/伪造的图像,在标准鉴伪技术下,篡改区域在中间图像中清晰可辨。然而,JPEG AI压缩使伪造图像更具可信度(最右侧图像)。
原因之一是,JPEG AI使用的模型架构与鉴伪工具试图检测的生成式系统所使用的架构相似:

AI编解码器与潜在扩散模型的相似性

新论文展示了人工智能驱动的图像压缩方法与实际人工智能生成图像方法之间的相似性。

因此,从鉴伪的角度来看,这两种模型可能会产生一些相似的底层视觉特征。

一、 量化

这种交叉现象的出现是由于两种架构都采用了量化技术。在机器学习中,量化既被用作一种将连续数据转换为离散数据点的方法,也被用作一种优化技术,可以显著减小训练模型的文件大小(普通的图像合成爱好者应该熟悉在庞大的官方模型发布后,等待社区推出可在本地硬件上运行的量化版本的过程)。

在这种情况下,量化指的是将图像潜在表示中的连续值转换为固定离散步长的过程。JPEG AI利用这一过程,通过简化内部数值表示来减少存储或传输图像所需的数据量

虽然量化使编码更高效,但它也引入了一些结构规律,这些规律可能类似于生成式模型留下的伪影 —— 这些伪影细微到难以察觉,但会干扰鉴伪工具。

作为回应,一篇题为《JPEG AI图像的三个鉴伪线索》的新论文的作者提出了可解释的非神经网络技术,用于检测JPEG AI压缩、确定图像是否被重新压缩,以及区分经JPEG AI压缩的真实图像和完全由人工智能生成的图像。

二、 方法

2.1 颜色相关性

该论文针对JPEG AI图像提出了三个“鉴伪线索”:JPEG AI预处理步骤中引入的颜色通道相关性;多次压缩过程中可测量的图像质量失真,这些失真揭示了重新压缩事件;以及有助于区分JPEG AI压缩图像和人工智能模型生成图像的潜在空间量化模式

关于基于颜色相关性的方法,JPEG AI的预处理流程在图像的颜色通道之间引入了统计相关性,形成了一个可作为鉴伪线索的特征。

JPEG AI将RGB图像转换为YUV颜色空间,并执行4:2:0色度子采样,即在压缩前对色度通道进行下采样。这一过程导致红色、绿色和蓝色通道的高频残差之间产生了微妙的相关性 —— 这种相关性在未压缩的图像中不存在,并且其强度与传统JPEG压缩或合成图像生成器产生的相关性不同。

颜色相关性对比

JPEG AI压缩如何改变图像颜色相关性的对比。

上图展示了论文中的一个对比,以红色通道为例,说明了JPEG AI压缩如何改变图像的颜色相关性。

A图将未压缩的图像与经JPEG AI压缩的图像进行对比,显示压缩显著增加了通道间的相关性;B图单独展示了JPEG AI预处理(仅颜色转换和子采样)的效果,表明仅这一步就显著提高了相关性;C图显示传统JPEG压缩也会略微增加相关性,但程度不如JPEG AI;D图分析了合成图像,Midjourney-V5和Adobe Firefly显示出适度的相关性增加,而其他合成图像的相关性更接近未压缩图像的水平。

2.2 率失真

率失真线索通过跟踪图像质量(以峰值信噪比(PSNR)衡量)在多次压缩过程中以可预测的模式下降的情况,来识别JPEG AI的重新压缩。

研究认为,使用JPEG AI反复压缩图像会导致图像质量逐渐下降,但这种下降仍然是可测量的,通过PSNR量化。这种逐渐的退化形成了一个鉴伪线索,用于检测图像是否被重新压缩。

与传统JPEG不同,传统JPEG早期的方法是跟踪特定图像块的变化,而JPEG AI由于其神经压缩架构,需要一种不同的方法。因此,作者建议监测比特率和PSNR在连续压缩过程中的变化。每一轮压缩对图像的改变都比上一轮小,这种变化的减小(与比特率对比绘制)可以揭示图像是否经过了多次压缩:

率失真曲线

展示了不同编解码器多次压缩对图像质量的影响,包括JPEG AI和https://arxiv.org/pdf/1802.01436开发的一种神经编解码器的结果;即使在较低的比特率下,两者在每次额外压缩时PSNR都会持续下降。相比之下,传统JPEG压缩在多次压缩过程中质量相对稳定,除非比特率很高。

在上图中,我们看到了JPEG AI、另一种基于人工智能的编解码器和传统JPEG的率失真曲线。结果发现,JPEG AI和神经编解码器在所有比特率下PSNR都持续下降,而传统JPEG只有在比特率非常高时才会出现明显的质量下降。这种行为提供了一个可量化的信号,可用于标记经过重新压缩的JPEG AI图像。

通过提取比特率和图像质量在多次压缩过程中的变化,作者同样构建了一个特征,有助于标记图像是否被重新压缩,为JPEG AI的鉴伪提供了一个潜在的实用线索。

2.3 量化

正如我们之前所见,JPEG AI带来的一个更具挑战性的鉴伪问题是,它与扩散模型生成的合成图像在视觉上相似。这两种系统都使用编码器 - 解码器架构,在压缩的潜在空间中处理图像,并且通常会留下微妙的上采样伪影。

这些共同特征可能会使检测器混淆 —— 即使是在JPEG AI图像上重新训练的检测器也不例外。然而,仍然存在一个关键的结构差异:JPEG AI应用了量化,即将潜在值舍入到离散级别以实现高效压缩,而生成式模型通常不这样做。

新论文利用这一区别设计了一个鉴伪线索,间接测试量化的存在。该方法分析图像的潜在表示对舍入操作的响应,假设如果图像已经经过量化,其潜在结构将与舍入值呈现出可测量的对齐模式。

这些模式虽然肉眼不可见,但会产生统计差异,有助于区分经过压缩的真实图像和完全合成的图像。

傅里叶频谱示例

平均傅里叶频谱示例显示,经JPEG AI压缩的图像和Midjourney - V5、Stable Diffusion XL等扩散模型生成的图像在频域中都呈现出规则的网格状模式 —— 这些伪影通常与上采样有关。相比之下,真实图像没有这些模式。这种频谱结构的重叠有助于解释为什么鉴伪工具经常将经过压缩的真实图像与合成图像混淆。

重要的是,作者表明,这个线索在不同的生成式模型中都有效,并且即使在压缩强度足以使潜在空间的整个部分归零的情况下仍然有效。相比之下,合成图像在这个舍入测试中的响应要弱得多,这为区分两者提供了一种实用的方法。

该结果旨在成为一种轻量级且可解释的工具,针对压缩和生成之间的核心差异,而不是依赖于脆弱的表面伪影。

三、 数据与测试

3.1 压缩

为了评估他们的颜色相关性线索是否能够可靠地检测JPEG AI压缩(即从未压缩源图像进行的首次压缩),作者在RAISE数据集的高质量未压缩图像上进行了测试,使用JPEG AI参考实现以各种比特率对这些图像进行压缩。

他们在颜色通道相关性的统计模式(特别是每个通道中的残差噪声如何与其他通道对齐)上训练了一个简单的随机森林,并将其与直接在图像像素上训练的ResNet50神经网络进行了比较。

颜色相关性检测准确率

使用颜色相关性特征检测JPEG AI压缩的准确率,在多个比特率下进行比较。该方法在较低比特率下最有效,此时压缩伪影更明显,并且比基线ResNet50模型在未见过的压缩级别上具有更好的泛化能力。

虽然ResNet50在测试数据与训练条件密切匹配时能达到更高的准确率,但它在不同压缩级别上的泛化能力较差。相比之下,基于相关性的方法虽然简单得多,但在各个比特率下表现更一致,特别是在较低压缩率下,JPEG AI的预处理效果更明显。

这些结果表明,即使不使用深度学习,也可以使用可解释且稳定的统计线索来检测JPEG AI压缩。

3.2 重新压缩

为了评估是否能够可靠地检测JPEG AI的重新压缩,研究人员在一组以不同比特率压缩的图像上测试了率失真线索 —— 其中一些图像只压缩了一次,而另一些图像使用JPEG AI进行了第二次压缩。

该方法涉及提取一个17维的特征向量,以跟踪图像的比特率和PSNR在三次压缩过程中的变化。这个特征集捕捉了每一步损失的质量,以及潜在率和超先验率的变化 —— 这些指标是传统基于像素的方法难以获取的。

研究人员在这些特征上训练了一个随机森林,并将其性能与在图像块上训练的ResNet50进行了比较:

重新压缩检测准确率

使用率失真特征训练的随机森林检测JPEG AI图像是否被重新压缩的分类准确率结果。该方法在初始压缩强度较大(即较低比特率)时表现最佳,并且始终优于基于像素的ResNet50 —— 特别是在第二次压缩比第一次压缩更温和的情况下。

随机森林在初始压缩强度较大(即较低比特率)时表现显著有效,能够清晰地区分单次压缩和二次压缩的图像。与之前的线索一样,ResNet50在泛化方面存在困难,特别是在测试其训练过程中未见过的压缩级别时。

相比之下,率失真特征在各种场景下都保持稳定。值得注意的是,该线索甚至在应用于另一种基于人工智能的编解码器时也有效,这表明该方法的泛化能力超出了JPEG AI。

四、JPEG AI与合成图像

为了评估量化线索是否能有效区分经JPEG AI压缩的真实图像和完全由AI生成的合成图像,研究人员使用了一系列不同来源的图像。这些图像包括从RAISE数据集中选取的高质量未压缩图像,经JPEG AI压缩后得到的图像;以及由多种生成式模型(如Midjourney - V5和Stable Diffusion XL)生成的合成图像。

研究人员分析了图像潜在表示对舍入操作的响应情况。如果图像已经经过量化处理,其潜在结构会与舍入后的值呈现出可测量的对齐模式。他们在这个分析的基础上训练了一个随机森林分类器,并将其性能与直接在图像像素上训练的ResNet50神经网络进行了比较。

检测JPEG AI压缩图像与合成图像的准确率

使用量化特征检测JPEG AI压缩图像与合成图像的准确率对比。该方法在不同生成式模型和压缩强度下都表现出良好的性能,相比基于像素的ResNet50模型,能更好地区分这两类图像。

结果表明,基于量化线索的随机森林分类器在不同的生成式模型和压缩强度下都能保持较好的性能。即使在压缩强度高到使潜在空间的某些部分归零的情况下,该方法依然有效。而ResNet50模型在面对未在训练中出现过的生成式模型或压缩设置时,其泛化能力较差。

这些结果进一步证明了通过分析量化模式来区分JPEG AI压缩图像和合成图像的可行性。这种方法不依赖于表面的、易变的图像特征,而是着眼于压缩和生成过程的核心差异,为数字图像取证提供了一种更可靠、更具解释性的工具。

五、结论

JPEG AI标准的发布标志着图像压缩技术的一个重要里程碑。它利用机器学习技术,在不损失感知质量的前提下,显著减小了图像文件的大小,提高了图像的传输和存储效率。然而,这种新技术也给数字图像取证领域带来了前所未有的挑战。由于JPEG AI对图像的处理方式与合成图像生成器产生的伪像相似,现有的取证工具难以区分真实图像和经过处理的假图像。

为了应对这一挑战,《JPEG AI图像的三种取证线索》一文的作者提出了三种专门针对JPEG AI图像的取证线索:颜色通道相关性、率失真分析和量化模式检测。通过对这些线索的研究和实验验证,作者展示了如何在不依赖复杂深度学习模型的情况下,利用可解释的统计特征来检测JPEG AI压缩、识别图像是否经过重新压缩,以及区分经JPEG AI压缩的真实图像和完全由AI生成的合成图像。

实验结果表明,基于这些取证线索的方法在不同的压缩率、重新压缩场景和生成式模型下都具有较好的性能和泛化能力。这些方法不仅为数字图像取证提供了实用的工具,也为进一步研究JPEG AI及其他基于机器学习的图像压缩技术的安全性和可靠性奠定了基础。

随着JPEG AI等新技术的不断发展和广泛应用,数字图像的真实性和完整性验证将变得越来越重要。未来的研究可以进一步探索如何结合多种取证线索,提高检测的准确性和鲁棒性;也可以研究如何将这些方法应用到更复杂的图像场景和实际应用中,如社交媒体、新闻媒体和法律取证等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2337182.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Oracle 19c部署之数据库软件安装(二)

在完成了Oracle Linux 9的初始化配置之后,我们准备安装Oracle 19c数据库软件。 Oracle数据库支持两种主要的安装方式:图形化安装和静默安装。这两种方法各有优缺点,选择哪种取决于你的具体需求、环境配置以及个人偏好。 图形化安装 图形化安…

在Vmware15(虚拟机免费) 中安装纯净win10详细过程

一、软件备选 1. VMware15.5.1 网盘下载地址 链接: https://pan.baidu.com/s/1y6GLJ2MG-1tomWblt3otsg?pwdim8e 提取码: im8e 2. windows镜像下载 去官网下载ios包 链接:https://www.microsoft.com/zh-cn/software-download/windows10 二、在VMware15.5.1下安装w…

[Spark]深入解密Spark SQL源码:Catalyst框架如何优雅地解析你的SQL

本文内容组织形式 总结具体例子执行语句解析层优化层物理计划层执行层 猜你喜欢PS 总结 先写个总结,接下来会分别产出各个部分的源码解析,Spark SQL主要分为以下五个执行部分。 具体例子 接下来举个具体的例子来说明 执行语句 SELECT name, age FR…

基于Flask的漏洞挖掘知识库系统设计与实现

基于Flask的漏洞挖掘知识库系统设计与实现 一、系统架构设计 1.1 整体架构 本系统采用经典的三层Web架构,通过Mermaid图展示的组件交互流程清晰呈现了以下核心模块: 前端展示层:基于Bootstrap5构建响应式界面业务逻辑层:Flask…

ECharts散点图-散点图8,附视频讲解与代码下载

引言: ECharts散点图是一种常见的数据可视化图表类型,它通过在二维坐标系或其它坐标系中绘制散乱的点来展示数据之间的关系。本文将详细介绍如何使用ECharts库实现一个散点图,包括图表效果预览、视频讲解及代码下载,让你轻松掌握…

Langchain-构建向量数据库和检索器

向量数据库安装 pip install langchain-chroma 文档》向量存储》向量数据库。 和0416 提示词工程相同。 初始化 import osfrom langchain_chroma import Chroma from langchain_community.chat_message_histories import ChatMessageHistory from langchain_core.documents im…

首席人工智能官(Chief Artificial Intelligence Officer,CAIO)的详细解析

以下是**首席人工智能官(Chief Artificial Intelligence Officer,CAIO)**的详细解析: 1. 职责与核心职能 制定AI战略 制定公司AI技术的长期战略,明确AI在业务中的应用场景和优先级,推动AI与核心业务的深度…

2025华中杯数学建模B题完整分析论文(共42页)(含模型、数据、可运行代码)

2025华中杯大学生数学建模B题完整分析论文 目录 一、问题重述 二、问题分析 三、模型假设 四、 模型建立与求解 4.1问题1 4.1.1问题1解析 4.1.2问题1模型建立 4.1.3问题1样例代码(仅供参考) 4.1.4问题1求解结果(仅供参考&am…

游戏引擎学习第231天

设定当天的主题 我们现在到了一个很少出现在直播中的阶段,但今天是那种需要解释计算机科学基础概念的日子。因此,今天我们将讨论这个内容,今天的重点是“大O表示法”(Order Notation),我将用黑板来解释这些…

Linux网络编程实战:从字节序到UDP协议栈的深度解析与开发指南

网路通信的三大要素:协议,端口和IP 知识点1【字节序】 多字节在主机中的存放数据 把多字节看成一个整体存储的顺序。 为什么我们在文件中没有这个概念呢? 因为文件是字节流(流指针),流是以一个字节为操…

赋能能源 | 智慧数据,构建更高效智能的储能管理系统

行业背景 随着新能源产业的快速发展,大规模储能系统在电力调峰、调频及可再生能源消纳等领域的重要性日益凸显。 储能电站作为核心基础设施,其能量管理系统(EMS)需要处理海量实时数据,包括电池状态、功率变化、环境监…

【音视频】音视频FLV合成实战

FFmpeg合成流程 示例本程序会⽣成⼀个合成的⾳频和视频流,并将它们编码和封装输出到输出⽂件,输出格式是根据⽂件扩展名⾃动猜测的。 示例的流程图如下所示。 ffmpeg 的 Mux 主要分为 三步操作: avformat_write_header : 写⽂件…

猪行为视频数据集

猪行为数据集包含 23 天(超过 6 周)的日间猪行为视频,这些视频由近乎架空的摄像机拍摄。视频已配准颜色和深度信息。数据以每秒 6 帧的速度捕获,并以 1800 帧(5 分钟)为一批次进行存储。大多数帧显示 8 头猪。 这里可以看到颜色和深度图像的示例: 喂食器位于图片底部中…

【网络技术_域名解析DNS】一、DNS 基础剖析及其原理

一、DNS 在互联网架构中的基石地位​ 当我们在浏览器地址栏输入www.baidu.com按下回车键的瞬间,一场跨越全球的 “数字寻址游戏” 便悄然启动。DNS(Domain Name System)作为互联网的核心基础设施,承担着将人类易读的域名转换为机…

Java学习小册:Java并发容器与原子类

在Java并发编程中,并发容器和原子类是管理共享数据的重要工具。它们提供了线程安全的数据结构和原子操作,确保在多线程环境下数据的一致性和操作的正确性。本文将深入探讨Java中的并发容器和原子类,包括它们的基本概念、使用方法、关键类及其…

摄影跟拍预定|基于java+vue的摄影跟拍预定管理系统(源码+数据库+文档)

摄影跟拍预定管理系统 目录 基于SprinBootvue的摄影跟拍预定管理系统 一、前言 二、系统设计 三、系统功能设计 1系统功能模块 2管理员功能模块 3摄影师功能模块 4用户功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获…

【HFP】深入解析蓝牙 HFP 协议中呼叫转移、呼叫建立及保持呼叫状态的机制

目录 一、核心指令概述 1.1 ATCMER:呼叫状态更新的 “总开关” 1.2 ATBIA:指示器的 “精准控制器” 1.3 指令对比 1.4 指令关系图示 二、CIEV 结果码:状态传递的 “信使” 2.1 工作机制 2.2 三类核心指示器 三、状态转移流程详解 3…

Linux:显示 -bash-4.2$ 问题(CentOS 7)

文章目录 一、原因二、错误示例三、解决办法 一、原因 在 CentOS 7 系统中,如果你看到命令行提示符显示为 -bash-4.2$,一般是 Bash shell 正在运行,并且它没有找到用户的个人配置文件,或者这些文件有问题而未能成功加载。这个提示…

视频监控EasyCVR视频汇聚平台接入海康监控摄像头如何配置http监听功能?

一、方案概述 本方案主要通过EasyCVR视频管理平台,实现报警信息的高效传输与实时监控。海康监控设备能通过HTTP协议将报警信息发送至指定的目的IP或域名,而EasyCVR平台则可以接收并处理这些报警信息,同时提供丰富的监控与管理功能&#xff0…

DAY09:【pytorch】nn网络层

1、卷积层 1.1 Convolution 1.1.1 卷积操作 卷积运算:卷积核在输入信号(图像)上滑动,相应位置上进行乘加卷积核:又称为滤波器、过滤器,可认为是某种模式、某种特征 1.1.2 卷积维度 一般情况下&#xf…