COIN++: Neural Compression Across Modalities 论文阅读笔记

news2025/7/17 14:51:41

1. 论文基本信息

发布于： TMLR 2022

2. 创新点

使用元学习将编码时间减少了两个数量级以上，将编码共享结构进行编码，并对该网络应用调制来编码实例特定信息。
量化和熵编码调制。虽然我们的方法在压缩和速度方面都大大超过了 COIN，但它仅部分缩小了与 SOTA 编解码器在经过充分研究的模式（例如图像）上的差距。然而，COIN++ 适用于传统方法难以使用的广泛数据模式，使其成为非标准域中神经压缩的一种有前途的工具。

3. 背景

COIN++通过优化将广泛的数据模式转换为神经网络，然后将这些神经网络的参数存储为数据的压缩代码。可以通过简单地改变神经网络的输入和输出维度来压缩不同的数据模式。

确定了 COIN 的以下问题：

编码很慢：压缩单个图像可能需要长达一个小时
缺乏共享结构：由于每个图像都是独立压缩的，网络之间没有共享信息
性能远低于最先进的 (SOTA) 图像编解码器。

4. Pipeline

数据表示

数据以坐标集(X)和特征集(Y)的形式表示。例如：

图像：二维平面中的像素位置 (x, y) 及其RGB颜色值 (r, g, b) 。
MRI扫描：三维空间中的位置 (x, y, z) 和强度值。

每个数据点是坐标和特征对的集合，表示为

。

4.1. 元学习的应用

基础网络与调制机制：在这种方法中，首先训练一个所有数据共享的基础网络，通常是一个多层感知机（MLP）。这个基础网络不直接对每个独立的数据进行特定的学习，而是提供了一个通用的特征提取框架。
FiLM层的应用：为了使基础网络能够适应每个具体的数据点，引入了 FiLM（Feature-wise Linear Modulation，特征线性调制）层。FiLM 层的核心思想是通过调制操作来修改网络中的隐藏特征。具体来说，FiLM 层会对隐藏层特征 h∈Rd 应用逐元素（elementwise）的缩放（scales, γ∈Rd）和平移（shifts, β∈Rd）操作：FiLM(h)=γ⋅h+β这里的 γ 和 β 是调制参数，它们可以根据每个数据点的具体需求进行调整，从而使得基础网络能够灵活地适应不同的数据特性。

COIN++架构。潜在调制 φ（绿色）通过超网络映射到调制（蓝色），这些调制被添加到基础网络 fθ（白色）的激活中，以参数化可以在坐标 x 处评估的单个函数以获得特征 y。

在 COIN++ 架构中，不同的图像或数据点对应的调制参数 φ 各不相同，这是因为每个数据或图像可能有其独特的结构和特征需求，通过使用不同的调制参数，可以使得同一个基础网络 fθ 能够适应和生成这些不同的数据。此外，这种方法允许我们在基础网络中存储共享信息，并在调制中存储实例特定信息。例如，对于自然图像，基础网络编码自然图像中常见的结构，而调制存储重建单个图像所需的信息。