概述
今年2月,经过多年旨在利用机器学习技术开发一种更小、更易于传输和存储且不损失感知质量的图像编解码器的研究后,JPEG AI国际标准正式发布。
来自JPEG AI官方发布流,峰值信噪比(PSNR)与JPEG AI的机器学习增强方法的对比。
这一技术问世鲜有媒体报道的一个可能原因是,此次发布的核心PDF文件无法通过像Arxiv这样的免费访问平台获取。尽管如此,Arxiv此前已经发表了多项研究,探讨了JPEG AI在多个方面的重要意义,包括该方法不常见的压缩伪影及其对图像鉴伪的重要性。
一项研究比较了包括JPEG AI早期草案版本在内的压缩伪影,发现新方法有使文本模糊的倾向 —— 在编解码器可能成为证据链一部分的情况下,这可不是小事。
由于JPEG AI改变图像的方式与合成图像生成器产生的伪影相似,现有的鉴伪工具难以区分真实图像和伪造图像:
根据最近一篇论文(2025年3月),经过JPEG AI压缩后,最先进的算法在定位图中已无法可靠地区分真实内容和被篡改区域。左侧的原始示例是被篡改/伪造的图像,在标准鉴伪技术下,篡改区域在中间图像中清晰可辨。然而,JPEG AI压缩使伪造图像更具可信度(最右侧图像)。
原因之一是,JPEG AI使用的模型架构与鉴伪工具试图检测的生成式系统所使用的架构相似:
新论文展示了人工智能驱动的图像压缩方法与实际人工智能生成图像方法之间的相似性。
因此,从鉴伪的角度来看,这两种模型可能会产生一些相似的底层视觉特征。
一、 量化
这种交叉现象的出现是由于两种架构都采用了量化技术。在机器学习中,量化既被用作一种将连续数据转换为离散数据点的方法,也被用作一种优化技术,可以显著减小训练模型的文件大小(普通的图像合成爱好者应该熟悉在庞大的官方模型发布后,等待社区推出可在本地硬件上运行的量化版本的过程)。
在这种情况下,量化指的是将图像潜在表示中的连续值转换为固定离散步长的过程。JPEG AI利用这一过程,通过简化内部数值表示来减少存储或传输图像所需的数据量。
虽然量化使编码更高效,但它也引入了一些结构规律,这些规律可能类似于生成式模型留下的伪影 —— 这些伪影细微到难以察觉,但会干扰鉴伪工具。
作为回应,一篇题为《JPEG AI图像的三个鉴伪线索》的新论文的作者提出了可解释的非神经网络技术,用于检测JPEG AI压缩、确定图像是否被重新压缩,以及区分经JPEG AI压缩的真实图像和完全由人工智能生成的图像。
二、 方法
2.1 颜色相关性
该论文针对JPEG AI图像提出了三个“鉴伪线索”:JPEG AI预处理步骤中引入的颜色通道相关性;多次压缩过程中可测量的图像质量失真,这些失真揭示了重新压缩事件;以及有助于区分JPEG AI压缩图像和人工智能模型生成图像的潜在空间量化模式。
关于基于颜色相关性的方法,JPEG AI的预处理流程在图像的颜色通道之间引入了统计相关性,形成了一个可作为鉴伪线索的特征。
JPEG AI将RGB图像转换为YUV颜色空间,并执行4:2:0色度子采样,即在压缩前对色度通道进行下采样。这一过程导致红色、绿色和蓝色通道的高频残差之间产生了微妙的相关性 —— 这种相关性在未压缩的图像中不存在,并且其强度与传统JPEG压缩或合成图像生成器产生的相关性不同。
JPEG AI压缩如何改变图像颜色相关性的对比。
上图展示了论文中的一个对比,以红色通道为例,说明了JPEG AI压缩如何改变图像的颜色相关性。
A图将未压缩的图像与经JPEG AI压缩的图像进行对比,显示压缩显著增加了通道间的相关性;B图单独展示了JPEG AI预处理(仅颜色转换和子采样)的效果,表明仅这一步就显著提高了相关性;C图显示传统JPEG压缩也会略微增加相关性,但程度不如JPEG AI;D图分析了合成图像,Midjourney-V5和Adobe Firefly显示出适度的相关性增加,而其他合成图像的相关性更接近未压缩图像的水平。
2.2 率失真
率失真线索通过跟踪图像质量(以峰值信噪比(PSNR)衡量)在多次压缩过程中以可预测的模式下降的情况,来识别JPEG AI的重新压缩。
研究认为,使用JPEG AI反复压缩图像会导致图像质量逐渐下降,但这种下降仍然是可测量的,通过PSNR量化。这种逐渐的退化形成了一个鉴伪线索,用于检测图像是否被重新压缩。
与传统JPEG不同,传统JPEG早期的方法是跟踪特定图像块的变化,而JPEG AI由于其神经压缩架构,需要一种不同的方法。因此,作者建议监测比特率和PSNR在连续压缩过程中的变化。每一轮压缩对图像的改变都比上一轮小,这种变化的减小(与比特率对比绘制)可以揭示图像是否经过了多次压缩:
展示了不同编解码器多次压缩对图像质量的影响,包括JPEG AI和https://arxiv.org/pdf/1802.01436开发的一种神经编解码器的结果;即使在较低的比特率下,两者在每次额外压缩时PSNR都会持续下降。相比之下,传统JPEG压缩在多次压缩过程中质量相对稳定,除非比特率很高。
在上图中,我们看到了JPEG AI、另一种基于人工智能的编解码器和传统JPEG的率失真曲线。结果发现,JPEG AI和神经编解码器在所有比特率下PSNR都持续下降,而传统JPEG只有在比特率非常高时才会出现明显的质量下降。这种行为提供了一个可量化的信号,可用于标记经过重新压缩的JPEG AI图像。
通过提取比特率和图像质量在多次压缩过程中的变化,作者同样构建了一个特征,有助于标记图像是否被重新压缩,为JPEG AI的鉴伪提供了一个潜在的实用线索。
2.3 量化
正如我们之前所见,JPEG AI带来的一个更具挑战性的鉴伪问题是,它与扩散模型生成的合成图像在视觉上相似。这两种系统都使用编码器 - 解码器架构,在压缩的潜在空间中处理图像,并且通常会留下微妙的上采样伪影。
这些共同特征可能会使检测器混淆 —— 即使是在JPEG AI图像上重新训练的检测器也不例外。然而,仍然存在一个关键的结构差异:JPEG AI应用了量化,即将潜在值舍入到离散级别以实现高效压缩,而生成式模型通常不这样做。
新论文利用这一区别设计了一个鉴伪线索,间接测试量化的存在。该方法分析图像的潜在表示对舍入操作的响应,假设如果图像已经经过量化,其潜在结构将与舍入值呈现出可测量的对齐模式。
这些模式虽然肉眼不可见,但会产生统计差异,有助于区分经过压缩的真实图像和完全合成的图像。
平均傅里叶频谱示例显示,经JPEG AI压缩的图像和Midjourney - V5、Stable Diffusion XL等扩散模型生成的图像在频域中都呈现出规则的网格状模式 —— 这些伪影通常与上采样有关。相比之下,真实图像没有这些模式。这种频谱结构的重叠有助于解释为什么鉴伪工具经常将经过压缩的真实图像与合成图像混淆。
重要的是,作者表明,这个线索在不同的生成式模型中都有效,并且即使在压缩强度足以使潜在空间的整个部分归零的情况下仍然有效。相比之下,合成图像在这个舍入测试中的响应要弱得多,这为区分两者提供了一种实用的方法。
该结果旨在成为一种轻量级且可解释的工具,针对压缩和生成之间的核心差异,而不是依赖于脆弱的表面伪影。
三、 数据与测试
3.1 压缩
为了评估他们的颜色相关性线索是否能够可靠地检测JPEG AI压缩(即从未压缩源图像进行的首次压缩),作者在RAISE数据集的高质量未压缩图像上进行了测试,使用JPEG AI参考实现以各种比特率对这些图像进行压缩。
他们在颜色通道相关性的统计模式(特别是每个通道中的残差噪声如何与其他通道对齐)上训练了一个简单的随机森林,并将其与直接在图像像素上训练的ResNet50神经网络进行了比较。
使用颜色相关性特征检测JPEG AI压缩的准确率,在多个比特率下进行比较。该方法在较低比特率下最有效,此时压缩伪影更明显,并且比基线ResNet50模型在未见过的压缩级别上具有更好的泛化能力。
虽然ResNet50在测试数据与训练条件密切匹配时能达到更高的准确率,但它在不同压缩级别上的泛化能力较差。相比之下,基于相关性的方法虽然简单得多,但在各个比特率下表现更一致,特别是在较低压缩率下,JPEG AI的预处理效果更明显。
这些结果表明,即使不使用深度学习,也可以使用可解释且稳定的统计线索来检测JPEG AI压缩。
3.2 重新压缩
为了评估是否能够可靠地检测JPEG AI的重新压缩,研究人员在一组以不同比特率压缩的图像上测试了率失真线索 —— 其中一些图像只压缩了一次,而另一些图像使用JPEG AI进行了第二次压缩。
该方法涉及提取一个17维的特征向量,以跟踪图像的比特率和PSNR在三次压缩过程中的变化。这个特征集捕捉了每一步损失的质量,以及潜在率和超先验率的变化 —— 这些指标是传统基于像素的方法难以获取的。
研究人员在这些特征上训练了一个随机森林,并将其性能与在图像块上训练的ResNet50进行了比较:
使用率失真特征训练的随机森林检测JPEG AI图像是否被重新压缩的分类准确率结果。该方法在初始压缩强度较大(即较低比特率)时表现最佳,并且始终优于基于像素的ResNet50 —— 特别是在第二次压缩比第一次压缩更温和的情况下。
随机森林在初始压缩强度较大(即较低比特率)时表现显著有效,能够清晰地区分单次压缩和二次压缩的图像。与之前的线索一样,ResNet50在泛化方面存在困难,特别是在测试其训练过程中未见过的压缩级别时。
相比之下,率失真特征在各种场景下都保持稳定。值得注意的是,该线索甚至在应用于另一种基于人工智能的编解码器时也有效,这表明该方法的泛化能力超出了JPEG AI。
四、JPEG AI与合成图像
为了评估量化线索是否能有效区分经JPEG AI压缩的真实图像和完全由AI生成的合成图像,研究人员使用了一系列不同来源的图像。这些图像包括从RAISE数据集中选取的高质量未压缩图像,经JPEG AI压缩后得到的图像;以及由多种生成式模型(如Midjourney - V5和Stable Diffusion XL)生成的合成图像。
研究人员分析了图像潜在表示对舍入操作的响应情况。如果图像已经经过量化处理,其潜在结构会与舍入后的值呈现出可测量的对齐模式。他们在这个分析的基础上训练了一个随机森林分类器,并将其性能与直接在图像像素上训练的ResNet50神经网络进行了比较。
使用量化特征检测JPEG AI压缩图像与合成图像的准确率对比。该方法在不同生成式模型和压缩强度下都表现出良好的性能,相比基于像素的ResNet50模型,能更好地区分这两类图像。
结果表明,基于量化线索的随机森林分类器在不同的生成式模型和压缩强度下都能保持较好的性能。即使在压缩强度高到使潜在空间的某些部分归零的情况下,该方法依然有效。而ResNet50模型在面对未在训练中出现过的生成式模型或压缩设置时,其泛化能力较差。
这些结果进一步证明了通过分析量化模式来区分JPEG AI压缩图像和合成图像的可行性。这种方法不依赖于表面的、易变的图像特征,而是着眼于压缩和生成过程的核心差异,为数字图像取证提供了一种更可靠、更具解释性的工具。
五、结论
JPEG AI标准的发布标志着图像压缩技术的一个重要里程碑。它利用机器学习技术,在不损失感知质量的前提下,显著减小了图像文件的大小,提高了图像的传输和存储效率。然而,这种新技术也给数字图像取证领域带来了前所未有的挑战。由于JPEG AI对图像的处理方式与合成图像生成器产生的伪像相似,现有的取证工具难以区分真实图像和经过处理的假图像。
为了应对这一挑战,《JPEG AI图像的三种取证线索》一文的作者提出了三种专门针对JPEG AI图像的取证线索:颜色通道相关性、率失真分析和量化模式检测。通过对这些线索的研究和实验验证,作者展示了如何在不依赖复杂深度学习模型的情况下,利用可解释的统计特征来检测JPEG AI压缩、识别图像是否经过重新压缩,以及区分经JPEG AI压缩的真实图像和完全由AI生成的合成图像。
实验结果表明,基于这些取证线索的方法在不同的压缩率、重新压缩场景和生成式模型下都具有较好的性能和泛化能力。这些方法不仅为数字图像取证提供了实用的工具,也为进一步研究JPEG AI及其他基于机器学习的图像压缩技术的安全性和可靠性奠定了基础。
随着JPEG AI等新技术的不断发展和广泛应用,数字图像的真实性和完整性验证将变得越来越重要。未来的研究可以进一步探索如何结合多种取证线索,提高检测的准确性和鲁棒性;也可以研究如何将这些方法应用到更复杂的图像场景和实际应用中,如社交媒体、新闻媒体和法律取证等领域。