干货!ICLR:基于学习的分布式多视角图像压缩

news2025/1/22 9:14:37

点击蓝字

4d3d7dd517586943c3cf01440f4021a3.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

作者介绍

张鑫杰

f284322d287b63f5833aa6ce8afa5468.png

香港科技大学电子与计算机工程系在读博士生,研究方向为图像视频压缩,

个人主页为https://xinjie-q.github.io/

内容简介

多视角图像压缩在3D相关应用程序中起着至关重要的作用。现有方法采用预测编码架构,需要联合编码来压缩相应的视差和残差信息。这要求相机之间的协作并在不同视图之间强制执行对极几何校正,使得在具有随机重叠视野的分布式相机系统中部署这些方法具有挑战性。幸运的是,分布式信源编码理论表明,通过独立编码和联合解码可以实现相关源的高效数据压缩,这促使我们设计基于学习的分布式多视角图像编码(LDMIC)框架。借助独立的编码器,LDMIC在解码器中引入了一个简单而有效的联合上下文传输模块,该模块基于交叉注意力机制来有效捕获不同视图间的全局相关性。实验结果表明,LDMIC在享受快速编码速度的同时,显著优于传统和基于学习的MIC方法。

论文链接:https://arxiv.org/abs/2301.09799

代码链接:https://github.com/Xinjie-Q/LDMIC

01

Definition

多视角图像编码指给定一组从不同视角来捕获当前感兴趣区域的相关图片,通过利用视角间的相关性来进行压缩和解压缩。多视角图像编码的方案在现实生活当中有着许多重要的应用,比如机器人导航、自动驾驶和视频监控。在这些应用中,我们经常会部署双目摄像头或者三目摄像头来去产生多视角图像。除此之外,在3D视频的生成当中,比如自由试点视频的生成当中,我们需要对同一个场景来部署多个摄像头捕获当前场景中的不同视角。由于通信带宽的限制,我们需要应用多视角编码的框架来尽可能减少传输所需要的比特数。

616c3fe10caa57e94df14cff36493d2f.png

02

Benchmarks

Single Image Coding

下面介绍一些可以用于多视角图像编码的方法。最简单的方法是单帧图像编码,当这种方法应用在多视角中,可以独立地去压缩每一个视角的图片。传统的方法有JPEG、BPG以及目前最先进的VVC-intra。除此之外,近年来也有许多工作将深度学习的技术引入到图像压缩当中,并且取得了比传统图像编码更优越的压缩性能。如图1所示,基于学习的单帧图像压缩主要是依赖于非线性变换和Entropy模型[1]。非线性变换主要指的是一对编码器和解码器。编码器会将输入图片x从像素空间转换到特征空间上面,接着利用熵模型来预测当前特征空间的概率分布,通常我们会将的概率分布构建为一个高斯分布。在得到概率分布之后,我们会应用熵编码将无损压缩为比特流并传输到解码端进行重建。但是如果我们直接将单帧图像编码应用到多视角图像编码中,由于单帧图像编码只关注每一张图片,而没有关注不同视角之间的相关性,这会造成次优的压缩性能。

9a3c269c266fcc7652b4b84a34745530.png

图1 单帧图像编码框架

Joint Multi-view Image Coding

图2显示了当前标准多视图图像编解码器 MV-HEVC 的编码过程 [2]。它采用了预测编码技术,可以概括为图3中的联合编码-解码范式。首先,与单帧图像编码相比,联合编码导致更高的编码复杂度。其次,联合编码需要预先收集所有不同视角的图像,这需要相机之间相互通信或将数据传输到中间的公共接收器,从而导致高通信开销。最后,大多数先前的方案利用基于对极几何校正的视差估计,这需要事先知道相机的内部和外部参数,以便在视差估计之前对图像进行校正。然而,在一些应用当中很难获取到相机的先验知识。

3e891b58721ae1cd93c4d8294e818526.png

图2 MV-HEVC编码过程                 图3 联合编码-解码框架

03

Distributed Source Coding

为解决上述问题,我们回顾了基于Slepian-Wolf Theorem的对称分布式信源编码 [3]。它表明了两个或多个相关源的单独编码和联合解码在理论上可以达到与联合编码-解码方案相同的压缩率。

10ba018e57455e14fa16cae5782c67f0.png

图4 Slepian-Wolf Theorem

04

Proposed Method: LDMIC

基于信息论结果,我们首先引入分布式信源编码来解耦视图间操作。如图5所示,我们只使用一个简单的图像编码器来压缩每个视图图像,这使我们能够享受低编码复杂度并避免相机协作。然后,我们在解码器处设计了一个与几何无关的联合上下文传输(Joint Context Transfer, JCT)模块,以利用视图间相关性进行高质量重建。值得注意的是,我们的 JCT 模块基于交叉注意机制,不依赖视差估计,这可以避免相机参数泄漏。最后,我们联合训练编码器和解码器以隐式地使潜在表示更紧凑,从而进一步提高压缩性能。

092d69dbec01419c849da489231abf59.png

图5 提出的对称分布式编码框架

图6展示了具体的网络结构。其中编码器以及熵模型采用的是单帧图像编码,在解码端则插入了我们提出的联合上下文编码模块去充分地利用不同视角之间的相关性。

efa169cf39b21bbbe6f75248408c40ab.png

图6 带有具有自回归熵模型的 LDMIC 框架

Joint Context Transfer Module

图7展示了我们提出的联合上下文转移模块,其中的核心模块是交叉注意力机制。在其中我们利用交叉注意力机制去充分利用不同视角之间的群集相关信息,这样的操作允许我们在不知道相机参数的前提下充分利用不同视角之间的相关性,这能够使其适用于任何的多相机系统。

6ec2b4fd4ab7dfb284993cf7eb733d7c.png

图7 所提出的联合上下文传输模块中第 k 条路径的示例

05

Experiments

Compression Performance

如图8所示,我们提出的方法可以实现与当前先进的联合编码解码方案相当的编码性能。

80695aecf60fb70de23bb935d02fd70a.png

图8 不同数据集下的压缩性能

Complexity Performance

此外,我们的方法继承了传统分布式压缩在图像级并行化方面的优势。在与联合编码-解码方法相比,我们的方法有更低的计算开销。

表1 基于学习的图像编解码器的计算复杂度比较

c4592f48f5bf0899d2c099747e992c85.png

3b92765455f65c30bc449953b4380413.png

图9 提出的方法和传统编解码器的计算复杂度比较

Ablation Studies

JCT模块的有效性:我们进行了一系列的消融研究,包括插入/除去JCT模块来实现Joint/Separate Encoding-Decoding和将JCT模块替换成其他视间操作。实验结果表明,我们提出的 JCT 模块可以更高地捕获视角相关性和重建更高质量地图片。

c7a06e50e74038a885dfee486833147e.png

图10 消融研究

联合训练策略的有效性:我们利用联合训练的好处来隐含地帮助编码器学习去除部分视图间冗余。因此,潜在特征表示会更紧凑。为了研究其效果,我们固定住预训练编码器和熵模型,仅训练联合解码器。如图所示,具有联合训练策略的潜在特征图包含更多的低幅值的元素,这表明可以用更少的比特来进行编码。

9586598e7c6ddb74e0d2f9fd91af48ea.png

图11 来自InStereo2K 数据集的可视化示例

06

Conclusion

首先,我们提出了第一个用于多视图图像编码的基于学习的视图对称框架。它解耦了编码器的视图间操作,这对于分布式相机系统来说是非常需要的。其次,我们还在解码器处提供了一个联合上下文传输模块,以显式捕获视图间相关性以生成更高质量地图片。另外,我们引入端到端的编码器-解码器训练策略来隐式地使潜在表示更紧凑。最后,我们希望所提出的方法可以作为未来在相关任务中的贡献的可能解决方案,例如单视图和多视图视频压缩。

07

Summary

[1] David Minnen, Johannes Balle, and George D Toderici. Joint autoregressive and hierarchical priors for learned image compression. Advances in neural information processing systems, 31, 2018.

[2] Gerhard Tech, Ying Chen, Karsten Muller, Jens-Rainer Ohm, Anthony Vetro, and Ye-Kui Wang. Overview of the multiview and 3d extensions of high efficiency video coding. IEEE Transactions on Circuits and Systems for Video Technology, 26(1):35–49, 2015.

[3] David Slepian and Jack Wolf. Noiseless coding of correlated information sources. IEEE Transactions on information Theory, 19(4):471–480, 1973.

整理:陈研

审核:张鑫杰

点击“阅读原文”跳转到59:07可以查看回放哦!

往期精彩文章推荐

57f1a6e8d35e32ba11781eb56523224e.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1000多位海内外讲者,举办了逾550场活动,超600万人次观看。

5f44a826b2b3b67517c55e9ac72dbbab.png

我知道你

在看

~

6606c0817fac445faa9f09923c9a4e10.gif

点击 阅读原文 查看回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/505057.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

搞定面试官-JUC面试专题强化

JUC是java.util.concurrent包的简称。 1. AQS高频问题 1.1 AQS是什么? 先看类位置 AQS是JUC下大量工具的基础类,很多工具都基于AQS实现的,比如lock锁, CountDownLatch,Semaphore,线程池等等都用到了AQS。 AQS中有一…

联合群美叶彦文:坚持,只要有一口气,能坚持多久,就坚持多久

创业之路的成败得失就看有多坚持。 成功并不是终点,失败并不是终结,只有勇气才是永恒。 Success is not final,failure is not fatal,it is the courage to continue that counts. ——温斯顿丘吉尔 迪斯雷利曾经说过:“成功的奥秘在于目标…

sqli-labs通关(十八)~(二十二)

第十八关 输入正确的账号密码,就会返回显示我们的User Agent信息,这是在我们的post请求里面的信息 所以我们用burp suite拦截抓包 那我们就可以对这个User Agent下手进行注入 当我们把它改成1时,出现如下报错信息,可以知道语句…

看完这篇文章你就彻底懂啦{保姆级讲解}-----(LeetCode刷题349两个数组的交集) 2023.5.9

目录 前言算法题(LeetCode刷题349两个数组的交集)—(保姆级别讲解)分析题目:什么是哈希表?什么是冲突?常见的三种哈希结构选择正确的哈希结构 算法思想(画图展示)&#x…

手写MyBatis第1-10章的总览

手写Mybatis的第一章到第十章的代码都放在了GitHub上,GIT地址: my-mybatis/my-mybatis at master dufGIT/my-mybatis (github.com) 从第一章到第十章目前已经涉及很多类了,但是它整体的模块还是很清晰的,我将这十章大致的内容用…

Java基础语法(十五):List、Set和Map

目录 前言 一、List 二、Set 三、Map 总结 前言 Java是一种很流行的编程语言,拥有很多被广泛应用的数据结构,其中List、Set和Map是最常用的几个。本文将为您介绍这三种数据结构的基本概念和用法。 从上面的集合框架图可以看到,Java 集合…

企企通携手「大自然家居」,启动供应链与采购数字化项目启动

“大自然家居_我爱大自然”。健康环保,是大自然家居独特价值,也是大自然发展的DNA。 当大家对家居行业还停留在低效耗能、环境污染的传统印象时,作为“亚洲品牌500强”的「大自然家居(中国)有限公司」(以下…

【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models

论文题目:《Scaling Instruction-Finetuned Language Models》 论文链接:https://arxiv.org/pdf/2210.11416.pdf github链接:https://github.com/google-research/text-to-text-transfer-transformer#released-model-checkpoints huggingface…

量子计算(13)基础知识4:量子测量

量子测量是量子电路中最后一个元素,在电路中我们经常用到。下面,我将描述量子测量的数学依据以及与量子测量相关的科学定理。 目录 一、量子测量 1、理论知识 2、计算基下测量单量子比特 二、两个原理 1、延迟测量原理 2、隐含测量原理 一、量子测…

RDA5850蓝牙多合一芯片之测试与调试

上次说到一款比较经典的蓝牙芯片《一款非常经典的蓝牙多媒体芯片RDA5850》,于是就用那块二手音箱小板来试试能不能调通。首先看芯片手册发现 有HST_TXD和HST_RXD两个引脚。通过以往的经验就可以分析出 这两个就是用来调试烧写的引脚。 再看前篇文章(同下图)的引脚分布,同样…

[论文笔记]SimMIM:a Simple Framework for Masked Image Modeling

文章地址:https://arxiv.org/abs/2111.09886 代码地址:https://github.com/microsoft/SimMIM 文章目录 摘要文章思路创新点文章框架Masking strategyPrediction headPrediction targetEvaluation protocols 性能实验实验设置Mask 策略预测头目标分辨率预…

科大讯飞股价迅飞 大模型逊色

5月8日,科大讯飞的股价开盘后放量涨停,报63.86元。5月6日,这家公司赶在A股周末休市前一天发布了自家的自然语言大模型“讯飞星火认知大模型”(以下简称“星火”)。 自OpenAI发布GPT-4后,国内的百度、华为、…

Linux Crontab 使用详解

什么是 crontab? crontab 是一个定时执行任务的工具,在 Linux 系统中广泛使用。它可以让用户在指定的时间自动执行某个指令或脚本,例如自动备份数据、清除日志、定时运行程序等。 crontab 的工作原理 crontab 依赖于系统 crond 守护进程&a…

视频监控系统选择硬盘,绿盘、蓝盘、紫盘、黑盘、红盘到底选择哪个?

前言 随着科技的不断进步和安全意识的提高,视频监控系统越来越普及,同时对于视频存储设备的要求也越来越高。硬盘作为视频存储设备的核心部件之一,选择一款适合的硬盘是保证视频存储和播放效果的关键。但是,市面上各种类型的硬盘…

C++ 类的继承与派生

目录 1、继承的概念 2、继承(Inherit) 3、继承方式 4、父子同名成员并存 5、虚函数(virtual) 6、纯虚函数 1、继承的概念 以李白为例 类1是类2的基类(父类),类2是类3的基类(父类…

Java实现数组求和

1 问题 在日常生活中,我们有时需要求解一些数据的和,那么我们能否通过java写出一个程序计算出一串数组之和呢? 2 方法 采用while循环的方法,将每位数上每个数字单独提取出来进行相加 public class Sum { public static void ma…

有或没有共享组件团队

在许多组织里,有专门的团队来负责共享组件(平台和中台都属于共享组件)。同时会有多个业务/产品团队,他们都向共享组件团队提要求。下图显示了一种典型的情况。 与共享组件团队关联的最大痛苦是等待,由此导致更长的端到…

基于ChatGPT的视频智能摘要实战

随着在 YouTube 上提交的大量新视频,很容易感到挑战并努力跟上我想看的一切。 我可以与我每天将视频添加到“稍后观看”列表中的经历联系起来,只是为了让列表变得越来越长,实际上并没有稍后再看。 现在,像 ChatGPT 或 LLaMA 这样的…

常见信号质量问题、危害及其解决方法-信号完整性-过冲、噪声、回勾、边沿缓慢

概述 在电路设计中,“信号”始终是工程师无法绕开的一个知识点。不管是在设计之初,还是在测试环节中,信号质量问题都值得关注。在本文中,主要介绍信号相关的四类问题:信号过冲、毛刺(噪声)、回…

springboot第18集:SpringMVC我的春天

mybatis-spring http://mybatis.org/spring/zh/index.html mybatis-ehcache http://mybatis.org/ehcache-cache/ MVC是一种常用的软件设计规范,它将一个应用程序分为三个不同的部分:模型(Model)、视图(View)、控制器(Controller)。这三个部分相互协作&am…