【AI视野·今日CV 计算机视觉论文速览第283期】Thu, 4 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 4 Jan 2024
Totally 85 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry
Authors Weirong Chen, Le Chen, Rui Wang, Marc Pollefeys
视觉里程计根据视觉输入估计移动摄像机的运动。现有方法主要关注两个视点跟踪，通常忽略图像序列中丰富的时间上下文，从而忽略全局运动模式并且不提供对完整轨迹可靠性的评估。这些缺点阻碍了在有遮挡、动态对象和低纹理区域的场景中的性能。为了应对这些挑战，我们推出了长期有效的任意点跟踪 LEAP 模块。 LEAP 创新地将视觉、轨道间和时间线索与精心选择的锚点相结合，以进行动态轨道估计。此外，LEAP 的时间概率公式将分布更新集成到可学习的迭代细化模块中，以推理逐点不确定性。基于这些特征，我们开发了 LEAP VO，这是一个强大的视觉里程计系统，擅长处理遮挡和动态场景。我们的正念集成通过采用长期点跟踪作为前端展示了一种新颖的实践。

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
Authors Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard
我们提出了一个框架，用于生成全身逼真的化身，该化身根据二元交互的对话动态进行手势。给定语音音频，我们输出一个人多种可能的手势运动，包括面部、身体和手。我们方法背后的关键是将矢量量化的样本多样性的优势与通过扩散获得的高频细节相结合，以生成更具动态性、表现力的运动。我们使用高度逼真的化身来可视化生成的运动，这些化身可以表达手势中的关键细微差别，例如手势。冷笑和傻笑。为了促进这方面的研究，我们引入了第一个多视图会话数据集，它允许进行真实感重建。实验表明，我们的模型可以生成适当且多样化的手势，优于扩散方法和仅 VQ 方法。此外，我们的感知评估强调了照片写实主义与网格在准确评估对话手势中微妙运动细节方面的重要性。

Step length measurement in the wild using FMCW radar
Authors Parthipan Siva, Alexander Wong, Patricia Hewston, George Ioannidis, Dr. Jonathan Adachi, Dr. Alexander Rabinovich, Andrea Lee, Alexandra Papaioannou
随着人口老龄化，许多辅助和监测技术正在开发中，以使老年人能够就地养老。为了促进就地老龄化，预测跌倒、住院等风险因素并提供早期干预措施非常重要。用于风险预测的环境监测的大部分工作都集中在步态速度分析上，利用雷达等隐私保护传感器。尽管有令人信服的证据表明，除了步态速度之外，监测步长对于预测风险也至关重要，但基于雷达的方法尚未探索在家中测量步长的方法。此外，使用雷达进行步长测量的实验室实验仅限于很少有健康受试者的概念验证研究。为了解决这一差距，提出了一种基于雷达的家用步长测量系统，该系统基于使用雷达点云的检测和跟踪，然后对躯干进行多普勒速度分析，以获得家中的步长。该方法在临床环境中进行了评估，涉及 35 名体弱的老年人，以确定其有效性。此外，该方法还在人们家中进行了评估，有 21 名体弱的老年人参与了临床评估。将所提出的基于雷达的步长测量方法与黄金标准 Zeno Walkway 步态分析系统进行比较，显示临床环境中存在 4.5 厘米 8.3 的误差。此外，它在不受控制的家庭环境中表现出出色的可靠性 ICC 2,k 0.91、95 CI 0.82 至 0.96。

A Vision Check-up for Language Models
Authors Pratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Stephanie Fu, Adrian Rodriguez Munoz, Shivam Duggal, Phillip Isola, Antonio Torralba
学习对字符串之间的关系进行建模可以教会大型语言模型法学硕士关于视觉世界的知识我们系统地评估法学硕士生成和识别各种日益复杂的视觉概念的能力，然后演示如何使用以下模型来训练初步的视觉表示学习系统文本。由于语言模型缺乏以像素的形式消费或输出视觉信息的能力，因此我们在研究中使用代码来表示图像。尽管 LLM 生成的图像看起来不像自然图像，但图像生成的结果以及模型纠正这些生成图像的能力表明，字符串的精确建模可以向语言模型传授有关视觉世界的许多方面的知识。

Synthetic dataset of ID and Travel Document
Authors Carlos Boned, Maxime Talarmain, Nabil Ghanmi, Guillaume Chiron, Sanket Biswas, Ahmad Montaser Awal, Oriol Ramos Terrades
本文提出了一个新的身份证件和旅行证件综合数据集，称为 SIDTD。创建 SIDTD 数据集是为了帮助训练和评估伪造身份证件检测系统。由于身份证件包含个人信息，而真实证件的公共数据集无法发布，因此这样的数据集已成为必需。此外，与合法文件相比，伪造文件非常稀有，而且伪造文件的生成方式因欺诈者而异，从而导致一类高度的内部变异性。在本文中，我们在此数据集上训练了最先进的模型，并将它们与更大但私有的数据集中实现的性能进行比较。

Frequency Domain Modality-invariant Feature Learning for Visible-infrared Person Re-Identification
Authors Yulin Li, Tianzhu Zhang, Yongdong Zhang
由于可见光和红外图像之间存在显着的跨模态差异，可见红外人员重新识别 VI ReID 具有挑战性。虽然现有方法侧重于设计复杂的网络架构或使用度量学习约束来学习模态不变特征，但它们经常忽略图像的哪个特定组件导致模态差异问题。在本文中，我们首先揭示了可见光和红外图像的幅度分量的差异是导致模态差异的主要因素，并进一步提出了一种新颖的频域模态不变特征学习框架FDMNet，以从频域角度减少模态差异。我们的框架引入了两个新颖的模块，即实例自适应幅度滤波器 IAF 模块和短语保留归一化 PPNorm 模块，以增强模态不变幅度分量并抑制图像和特征级别的模态特定分量。

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions
Authors David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong, Doyen Sahoo
大多数现有视频传播模型 VDM 仅限于文本条件。因此，他们通常缺乏对生成视频的视觉外观和几何结构的控制。这项工作提出了 Moonshot，一种新的视频生成模型，它同时以图像和文本的多模态输入为条件。该模型建立在一个称为多模态视频块 MVB 的核心模块上，该模块由用于表示视频特征的传统时空层和用于处理图像和文本输入以进行外观调节的解耦交叉注意层组成。此外，我们精心设计了模型架构，使其可以选择性地与预先训练的图像 ControlNet 模块集成以实现几何视觉条件，而不需要与之前的方法相比额外的训练开销。实验表明，凭借多功能的多模式调节机制，与现有模型相比，Moonshot 在视觉质量和时间一致性方面表现出显着改善。此外，该模型可以轻松地重新用于各种生成应用，例如个性化视频生成、图像动画和视频编辑，揭示了其作为可控视频生成的基本架构的潜力。

Detours for Navigating Instructional Videos
Authors Kumar Ashutosh, Zihui Xue, Tushar Nagarajan, Kristen Grauman
我们介绍了用于导航教学视频的视频绕行问题。给定源视频和自然语言查询，要求以某种方式更改视频的当前执行路径，目标是找到满足所请求更改的相关绕行视频。为了应对这一挑战，我们提出了 VidDetours，这是一种新颖的视频语言方法，它学习如何从如何使用视频和文本条件查询的大型存储库中检索目标时间片段。此外，我们设计了一种基于语言的管道，利用如何视频旁白文本来创建弱监督训练数据。我们展示了我们的想法应用于如何烹饪视频领域，用户可以绕过当前的食谱，找到使用替代原料、工具和技术的步骤。

aMUSEd: An Open MUSE Reproduction
Authors Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
我们提出了 aMUSEd，一个开源的、轻量级的蒙版图像模型 MIM，用于基于 MUSE 的文本到图像生成。 aMUSEd 具有 MUSE 10% 的参数，专注于快速图像生成。我们认为，与潜在扩散（文本到图像生成的流行方法）相比，MIM 尚待探索。与潜在扩散相比，MIM 需要更少的推理步骤并且更具可解释性。此外，MIM 可以进行微调，以仅使用单个图像来学习其他样式。我们希望通过展示 MIM 在大规模文本到图像生成方面的有效性并发布可重现的训练代码来鼓励对 MIM 的进一步探索。

Understanding the Detrimental Class-level Effects of Data Augmentation
Authors Polina Kirichenko, Mark Ibrahim, Randall Balestriero, Diane Bouchacourt, Ramakrishna Vedantam, Hamed Firooz, Andrew Gordon Wilson
数据增强 DA 对不变性进行编码，并提供对图像分类任务中的模型性能至关重要的隐式正则化。然而，虽然 DA 提高了平均准确率，但最近的研究表明，其影响可能高度依赖于类别，实现最佳平均准确率的代价是在 ImageNet 上严重损害单个类别的准确率高达 20。由于对这些影响的了解有限，在解决班级准确率下降问题方面进展甚微。在这项工作中，我们提出了一个框架来理解 DA 如何与班级学习动态相互作用。在 ImageNet 上使用更高质量的多标签注释，我们系统地对受影响的类别进行分类，发现大多数本质上是不明确的、同时发生的或涉及细粒度的区别，而 DA 控制模型对密切相关的类别之一的偏见。虽然之前报告的许多性能下降都是通过多标签注释来解释的，但我们对类混淆的分析揭示了准确性下降的其他原因。

FullLoRA-AT: Efficiently Boosting the Robustness of Pretrained Vision Transformers
Authors Zheng Yuan, Jie Zhang, Shiguang Shan
近年来，Vision Transformer ViT模型逐渐成为各种计算机视觉任务中的主流，模型的鲁棒性越来越受到关注。然而，现有的大型模型在训练过程中往往优先考虑性能，可能忽视鲁棒性，这可能会导致严重的安全问题。在本文中，我们提出了一个新的挑战，探索如何使用少量附加参数进行对抗性微调，以快速有效地增强标准训练模型的对抗性鲁棒性。

Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement
Authors Zheng Yuan, Jie Zhang, Yude Wang, Shiguang Shan, Xilin Chen
近年来，注意力机制已被证明在各种视觉任务中有效。在语义分割任务中，注意力机制被应用于多种方法中，包括以卷积神经网络CNN和Vision Transformer ViT作为主干的情况。然而，我们观察到注意力机制很容易受到基于补丁的对抗性攻击。通过对有效感受野的分析，我们将其归因于全局注意力带来的宽感受野可能导致对抗性斑块的传播。为了解决这个问题，在本文中，我们提出了一种鲁棒注意力机制RAM来提高语义分割模型的鲁棒性，这可以显着缓解基于补丁的攻击的漏洞。与vallina注意力机制相比，RAM引入了两个新颖的模块，称为最大注意力抑制和随机注意力丢失，这两个模块都旨在细化注意力矩阵并限制单个对抗性补丁对其他位置语义分割结果的影响。

Few-shot Image Generation via Information Transfer from the Built Geodesic Surface
Authors Yuexing Han, Liheng Ruan, Bing Wang
大多数使用有限数据训练的生成模型生成的图像通常在保真度和/或多样性方面存在缺陷。解决该限制的一种有效解决方案是少镜头生成模型自适应。然而，这种方法通常依赖于大规模的预训练模型，作为源域，以促进信息传输到目标域。在本文中，我们提出了一种称为从构建测地表面信息传输 ITBGS 的方法，该方法包含两个模块：测地表面特征增强 FAGS 插值和正则化 I R 。使用 FAGS 模块，通过将训练数据集中的图像特征投影到预形状空间中来创建伪源域，随后在测地线表面上生成新特征。因此，在使用 FAGS 训练生成模型期间，自适应过程不需要预先训练的模型。引入IR模块分别用于监督插值图像并规范它们的相对距离，以进一步提高生成图像的质量。

Few-shot Adaptation of Multi-modal Foundation Models: A Survey
Authors Fan Liu, Tianshu Zhang, Wenwen Dai, Wenwen Cai Xiaocong Zhou, Delong Chen
多模态视觉语言模型（例如 CLIP）正在取代传统的监督预训练模型（例如基于 ImageNet 的预训练），成为新一代视觉基础模型。这些模型具有从数十亿互联网图像文本对中学习的强大且一致的语义表示，并且可以以零样本的方式应用于各种下游任务。然而，在医学成像和遥感等一些细粒度领域，多模态基础模型的性能往往不尽如人意。因此，许多研究人员开始探索这些模型的少数镜头适应方法，逐渐衍生出三种主要技术方法：1基于提示的方法、2基于适配器的方法和3基于外部知识的方法。然而，这个快速发展的领域已经产生了大量的成果，但没有进行全面的调查来系统地组织研究进展。因此，在本次调查中，我们介绍和分析了多模态模型的几种镜头自适应方法的研究进展，总结了常用的数据集和实验设置，并比较了不同方法的结果。此外，由于现有方法缺乏可靠的理论支持，我们推导了多模态模型的少数镜头自适应泛化误差界。该定理揭示了多模态基础模型的泛化误差受到域间隙、模型容量和样本大小三个因素的约束。

Learning Keypoints for Robotic Cloth Manipulation using Synthetic Data
Authors Thomas Lips, Victor Louis De Gusseme, Francis wyffels
辅助机器人应该能够清洗、折叠或熨烫衣服。然而，由于衣服的多样性、可变形性和自遮挡性，创建用于布料操作的通用机器人系统具有挑战性。合成数据是提高泛化能力的一个有前途的方向，尽管它的可用性常常受到模拟与真实差距的限制。为了推进合成数据在布料操作中的使用并实现机器人折叠等任务，我们提出了一个合成数据管道来训练几乎扁平的布料物品的关键点检测器。为了测试其性能，我们还收集了真实世界的数据集。我们训练了 T 恤、毛巾和短裤的检测器，获得了 64.3 的平均精度。对现实世界数据的微调将性能提高到 74.2 。通过讨论关键点检测器的各种故障模式以及比较获取布料网格和材料的不同方法，提供了额外的见解。我们还量化了剩余的模拟与实际差距，并认为需要进一步提高布料资产的保真度才能进一步缩小这一差距。

STAF: 3D Human Mesh Recovery from Video with Spatio-Temporal Alignment Fusion
Authors Wei Yao, Hongwen Zhang, Yunlian Sun, Jinhui Tang
近年来，从单目图像中恢复 3D 人体网格得到了显着发展。然而，现有模型通常忽略空间和时间信息，这可能导致网格和图像错位以及时间不连续。为此，我们提出了一种新颖的时空对齐融合 STAF 模型。作为基于视频的模型，它通过基于注意力的时间相干融合模块 TCFM 利用人体运动的相干线索。至于空间网格对齐证据，我们通过特征图上的预测网格投影来提取细粒度的局部信息。基于空间特征，我们进一步引入多级相邻空间对齐融合模块SAFM来增强目标帧的特征表示。除了上述之外，我们还提出了平均池化模块 APM，使模型能够关注整个输入序列而不仅仅是目标帧。该方法可以显着提高视频恢复结果的平滑度。在 3DPW、MPII3D 和 H36M 上的大量实验证明了 STAF 的优越性。我们在精度和平滑度之间实现了最先进的权衡。

Lightweight Adaptive Feature De-drifting for Compressed Image Classification
Authors Long Peng, Yang Cao, Yuejin Sun, Yang Wang
JPEG 是一种广泛使用的压缩方案，可有效减少传输图像的体积。由于信息丢失，块之间出现伪影，这不仅影响图像质量，而且还会在特征漂移方面损害后续的高级任务。在处理压缩图像时，尤其是在移动设备上，在高质量图像上训练的高级视觉模型将遭受性能下降。已经提出了许多基于学习的 JPEG 伪影去除方法来处理视觉伪影。然而，由于以下原因，使用这些 JPEG 伪影去除方法作为压缩图像分类的预处理并不是理想的选择 1. 这些方法是为人类视觉而不是高级视觉模型设计的 2. 这些方法不够高效用作资源受限设备上的预处理。为了解决这些问题，本文提出了一种新颖的轻量级 AFD 模块，以提高预训练图像分类模型在面对压缩图像时的性能。首先，设计 FDE 网络以在 DCT 域中生成空间明智的 FDM。接下来，将估计的FDM传输到FE Net，以生成退化特征与对应的高质量特征之间的映射关系。 FE Net 中使用了一个简单但有效的配备结构重新参数化的 RepConv 块，丰富了训练阶段的特征表示，同时保持了部署阶段的效率。在对有限的压缩图像进行训练后，AFD 模块可以作为预训练分类模型的即插即用模型，以提高其在压缩图像上的性能。

Local Adaptive Clustering Based Image Matching for Automatic Visual Identification
Authors Zhizhen Wang
监控摄像机广泛应用于工业生产中，监控设备运行情况。随着计算机视觉的进步，使用图像特征进行设备识别是可行的。本文提出了一种视觉辅助识别系统，通过监控视频中的图像匹配实现实时自动设备标记。系统采用ORB算法提取图像特征，采用GMS算法去除错误匹配点。根据聚类和模板局部性的原理，建立了一种称为局部自适应聚类LAC的方法来增强标签定位。该方法利用聚类中心对模板进行分割匹配，提高了标签的效率和稳定性。

Fact-checking based fake news detection: a review
Authors Yuzhou Yang, Yangming Zhou, Qichao Ying, Zhenxing Qian, Dan Zeng, Liang Liu
本文从任务与问题、算法策略、数据集等角度对基于事实的假新闻的研究成果进行了回顾和总结。首先，论文系统地阐述了基于事实的假新闻检测的任务定义和核心问题。其次，文章根据算法原理对现有的检测方法进行了总结。第三，论文分析了该领域经典的和新提出的数据集，并总结了每个数据集上的实验结果。最后，论文总结了现有方法的优缺点，提出了该领域方法可能面临的若干挑战，并对下一阶段的研究进行了展望。

WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope
Authors Jun Yan He, Zhi Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Yusen Hu, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Bin Luo, Yifeng Geng, Xuansong Xie, Jingren Zhou
本文介绍了 WordArt Designer API，这是一种利用 ModelScope 上的大型语言模型法学硕士进行用户驱动的艺术排版合成的新颖框架。我们通过提供动态、自适应且计算高效的传统刚性模板替代方案来解决为非专业人士简化艺术排版的挑战。我们的方法利用法学硕士的力量来理解和解释用户输入，促进更直观的设计过程。我们通过各种案例研究展示用户如何表达他们的审美偏好和功能需求，然后系统将其转化为独特且富有创意的版式设计。我们的评估表明，与现有系统相比，用户满意度、设计灵活性和创意表达方面有了显着改善。

AID-DTI: Accelerating High-fidelity Diffusion Tensor Imaging with Detail-Preserving Model-based Deep Learning
Authors Wenxin Fan, Jian Cheng, Cheng Li, Xinrui Ma, Jing Yang, Juan Zou, Ruoyou Wu, Qiegen Liu, Shanshan Wang
深度学习在加速扩散张量成像 DTI 方面表现出了巨大的潜力。然而，现有方法在重建 DTI 导出的参数图时往往会受到莱斯噪声和细节损失的影响，尤其是在使用稀疏采样的 q 空间数据时。本文提出了一种新方法，AID DTI 加速高保真扩散张量成像，只需六次测量即可实现快速、准确的 DTI。 AID DTI配备了新设计的基于奇异值分解SVD的正则器，可以在网络训练过程中有效捕获精细细节，同时抑制噪声。

ODTrack: Online Dense Temporal Token Learning for Visual Tracking
Authors Yaozong Zheng, Bineng Zhong, Qihua Liang, Zhiyi Mo, Shengping Zhang, Xianxian Li
连续视频帧之间的在线上下文推理和关联对于感知视觉跟踪中的实例至关重要。然而，大多数当前表现最好的跟踪器通过离线模式持续依赖参考帧和搜索帧之间的稀疏时间关系。因此，它们只能在每个图像对内独立交互并建立有限的时间相关性。为了缓解上述问题，我们提出了一种简单、灵活且有效的视频级跟踪管道，名为textbf ODTrack，它以在线令牌传播方式密集关联视频帧的上下文关系。 ODTrack接收任意长度的视频帧来捕获实例的时空轨迹关系，并将目标的判别特征定位信息压缩为令牌序列以实现帧到帧关联。这种新的解决方案带来了以下好处 1 纯化的令牌序列可以作为下一视频帧中的推理提示，从而利用过去的信息来指导未来的推理 2 通过令牌序列的迭代传播有效避免了复杂的在线更新策略，从而我们可以实现更高效的模型表示和计算。 ODTrack 在七个基准测试中实现了新的 textit SOTA 性能，同时以实时速度运行。

Transformer RGBT Tracking with Spatio-Temporal Multimodal Tokens
Authors Dengdi Sun, Yajie Pan, Andong Lu, Chenglong Li, Bin Luo
许多RGBT跟踪研究主要集中在模态融合设计上，而忽视了目标外观变化的有效处理。虽然一些方法引入了历史帧或融合并替换了初始模板以合并时间信息，但它们存在破坏原始目标外观并随着时间的推移累积错误的风险。为了缓解这些限制，我们提出了一种新颖的 Transformer RGBT 跟踪方法，该方法混合来自 Transformer 中静态多模态模板和多模态搜索区域的时空多模态标记来处理目标外观变化，以实现稳健的 RGBT 跟踪。我们引入独立的动态模板令牌与搜索区域交互，嵌入时间信息来解决外观变化，同时还保留初始静态模板令牌在联合特征提取过程中的参与，以确保保留原始可靠的目标外观信息防止传统时间更新导致的目标外观偏差。我们还使用注意机制通过合并补充模态线索来增强多模态模板标记的目标特征，并通过注意机制使多模态搜索区域标记与多模态动态模板标记交互，这有利于多模态增强的目标变化信息的传达。我们的模块插入到 Transformer 主干网络中，继承了联合特征提取、搜索模板匹配和跨模态交互。

Simultaneous q-Space Sampling Optimization and Reconstruction for Fast and High-fidelity Diffusion Magnetic Resonance Imaging
Authors Jing Yang, Jian Cheng, Cheng Li, Wenxin Fan, Juan Zou, Ruoyou Wu, Shanshan Wang
扩散磁共振成像 dMRI 在人脑体内组织微观结构特性和结构连接的无创研究中发挥着至关重要的作用。然而，为了有效地捕获水在不同方向和尺度上扩散的复杂特征，采用全面的 q 空间采样非常重要。不幸的是，这一要求导致扫描时间较长，限制了 dMRI 的临床适用性。为了应对这一挑战，我们提出了 SSOR，一种同步 q 空间采样优化和重建框架。我们使用球谐函数的连续表示和重建网络联合优化 q 空间样本的子集。此外，我们通过应用 l1 范数和总变分正则化，在 q 空间和图像域中集成了扩散磁共振成像 dMRI 的独特属性。

DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models
Authors Yichen Liu, Huajian Zhang, Daqing Gao
以YOLO系列为代表的目标检测模型已经得到了广泛的应用，并在高质量的数据集上取得了很好的效果，但并不是所有的工作条件都是理想的。为了解决在低质量数据集上定位目标的问题，现有方法要么训练新的目标检测网络，要么需要大量低质量数据集进行训练。然而，我们在本文中提出了一个框架，并将其应用于称为 DiffYOLO 的 YOLO 模型。具体来说，我们从去噪扩散概率模型中提取特征图来增强训练有素的模型，这使我们能够在高质量数据集上微调 YOLO 并在低质量数据集上进行测试。结果证明该框架不仅可以证明在噪声数据集上的性能，还可以证明在高质量测试数据集上的检测结果。

AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI
Authors Fanda Fan, Chunjie Luo, Jianfeng Zhan, Wanling Gao
人工智能生成内容 AIGC 这一新兴领域正在快速发展，尤其是在视频生成领域。本文介绍了 AIGCBench，这是一个开创性的全面且可扩展的基准测试，旨在评估各种视频生成任务，主要关注图像到视频 I2V 生成。 AIGCBench 通过包含各种开放域图像文本数据集，在同等条件下评估不同的最先进算法，解决了现有基准测试缺乏多样化数据集的局限性。我们采用新颖的文本组合器和 GPT 4 创建富文本提示，然后用于通过高级文本到图像模型生成图像。为了建立视频生成任务的统一评估框架，我们的基准测试包括跨越四个维度的 11 个指标来评估算法性能。这些维度是控制视频对齐、运动效果、时间一致性和视频质量。这些指标既依赖于参考视频又独立于视频，确保了全面的评估策略。提出的评估标准与人类判断密切相关，可以深入了解当前 I2V 算法的优缺点。我们广泛实验的结果旨在刺激 I2V 领域的进一步研究和开发。

De-Confusing Pseudo-Labels in Source-Free Domain Adaptation
Authors Idit Diamant, Idan Achituve, Arnon Netzer
无源域适应 SFDA 旨在将从源域学到的知识转移到未标记的目标域，在适应过程中源数据不可用。 SFDA 现有的方法侧重于自我训练，通常包括完善的熵最小化和伪标记技术。最近的工作提出了一种协同学习策略，使用 Swin B 等鲁棒的预训练网络来提高生成的目标伪标签的质量。然而，由于生成的伪标签依赖于源模型，因此它们可能会因域转移而产生噪声。在本文中，我们从标签噪声学习的角度来看待SFDA，并学习去混淆伪标签。更具体地说，我们学习伪标签的噪声转换矩阵，以捕获每个类的标签损坏并了解底层的真实标签分布。估计噪声转移矩阵可以实现更好的真实类后验估计结果和更好的预测精度。我们证明了我们的方法应用于多种 SFDA 方法 SHOT、SHOT 和 AaD 的有效性。

Prototypical Information Bottlenecking and Disentangling for Multimodal Cancer Survival Prediction
Authors Yilan Zhang, Yingxue Xu, Jianqi Chen, Fengying Xie, Hao Chen
多模态学习显着有利于癌症生存预测，尤其是病理图像和基因组数据的整合。尽管多模态学习在癌症生存预测方面具有优势，但多模态数据中的大量冗余使其无法提取有区别性和紧凑的信息1大量的模内任务无关信息模糊了可区分性，特别是对于具有许多病理学斑块和数千个斑块的千兆像素整个幻灯片图像WSI基因组数据中的路径，导致模式内冗余问题。 2 模态之间的重复信息主导了多模态数据的表示，这使得模态特定信息容易被忽略，从而导致模态间冗余问题。为了解决这些问题，我们提出了一个新的框架，原型信息瓶颈和解缠 PIBD，由用于模内冗余的原型信息瓶颈 PIB 模块和用于模间冗余的原型信息解缠 PID 模块组成。具体来说，提出了一种信息瓶颈的变体 PIB，用于对不同风险级别的近似一堆实例的原型进行建模，该原型可用于在模态中选择判别性实例。 PID 模块在联合原型分布的指导下，将纠缠的多模态数据解耦为紧凑的不同组件模态公共知识和模态特定知识。

S3Net: Innovating Stereo Matching and Semantic Segmentation with a Single-Branch Semantic Stereo Network in Satellite Epipolar Imagery
Authors Qingyuan Yang, Guanzhou Chen, Xiaoliang Tan, Tong Wang, Jiaqi Wang, Xiaodong Zhang
立体匹配和语义分割是双目卫星3D重建中的重要任务。然而，之前的研究主要将这些视为独立的并行任务，缺乏集成的多任务学习框架。这项工作介绍了一种解决方案，即单分支语义立体网络 S3Net，它使用 Self Fuse 和 Mutual Fuse 模块创新地将语义分割和立体匹配结合起来。与之前独立利用语义或视差信息的方法不同，我们的方法识别并利用这两个任务之间的内在联系，从而更准确地理解语义信息和视差估计。 US3D 数据集上的对比测试证明了我们的 S3Net 的有效性。我们的模型将语义分割中的mIoU从61.38提高到67.39，并将视差估计中的D1 Error和平均端点误差EPE分别从10.051降低到9.579和1.439到1.403，超越了现有的竞争方法。

BLADE: Box-Level Supervised Amodal Segmentation through Directed Expansion
Authors Zhaochen Liu, Zhixuan Li, Tingting Jiang
感知被遮挡物体的完整形状对于人类和机器智能至关重要。虽然非模态分割任务是预测部分遮挡对象的完整掩模，但注释像素级地面真值非模态掩模既耗时又费力。框级监督的非模态分割通过仅依赖地面真实边界框和实例类作为监督来解决这一挑战，从而减轻了对详尽的像素级注释的需要。然而，当前的盒级方法在生成低分辨率掩模和不精确边界方面遇到限制，无法满足实际应用的需求。我们提出了一种新颖的解决方案来解决这个问题，通过引入从可见掩模到相应的非模态掩模的定向扩展方法。我们的方法涉及基于重叠区域（不同实例相交的区域）的混合端到端网络。根据不同的特征，对重叠区域和非重叠区域采用不同的分割策略。为了指导可见掩模的扩展，我们引入了精心设计的重叠区域的连接损失，它利用与可见掩模的相关性并促进准确的非模态分割。

Context-Aware Interaction Network for RGB-T Semantic Segmentation
Authors Ying Lv, Zhi Liu, Gongyang Li
RGB T语义分割是自动驾驶场景理解的关键技术。然而，现有的RGB T语义分割方法并没有在多个层次之间的信息交互中实现对不同模态之间互补关系的有效探索。为了解决这个问题，上下文感知交互网络 CAINet 被提出用于 RGB T 语义分割，它构建交互空间以利用辅助任务和全局上下文来进行显式引导学习。具体来说，我们提出了一个上下文感知互补推理 CACR 模块，旨在建立多模态特征与空间和通道维度上的长期上下文之间的互补关系。此外，考虑到全局上下文和详细信息的重要性，我们提出了全局上下文建模GCM模块和细节聚合DA模块，并引入了特定的辅助监督来显式地指导上下文交互并细化分割图。对 MFNet 和 PST900 两个基准数据集的大量实验表明，所提出的 CAINet 实现了最先进的性能。

Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning
Authors Zitong Huang, Ze Chen, Zhixing Chen, Erjin Zhou, Xinxing Xu, Rick Siow Mong Goh, Yong Liu, Chunmei Feng, Wangmeng Zuo
Few Shot 类增量学习 FSCIL 旨在基于非常有限的训练数据不断学习新类，而不忘记遇到的旧类。现有的研究仅依赖于纯视觉网络，而在本文中，我们通过利用视觉语言模型（例如 CLIP）解决了 FSCIL，并提出了一个简单而有效的框架，名为 Learning Prompt with Distribution based Feature Replay LP DiF 。我们观察到，简单地使用 CLIP 进行零样本评估可以大大优于最有影响力的方法。然后，涉及提示调整技术以进一步提高其适应能力，使模型能够不断从每个会话中捕获特定知识。为了防止可学习提示在新会话中忘记旧知识，我们提出了一种伪特征重放方法。具体来说，我们通过使用对角协方差矩阵维护特征级高斯分布来保留每个类别的旧知识，该矩阵是通过训练图像的图像特征和 VAE 生成的合成特征来估计的。当进入新会话时，从旧类分布中采样伪特征并结合当前会话的训练图像来优化提示，从而使模型能够在保留旧知识的同时学习新知识。在三个流行的基准（即 CIFAR100、mini ImageNet、CUB 200）和两个更具挑战性的基准（即本文提出的 SUN 397 和 CUB 200）上进行的实验展示了 LP DiF 的优越性，在 FSCIL 中实现了新的最先进的 SOTA。

MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning
Authors Jiarun Liu, Hong Yu Zhou, Cheng Li, Weijian Huang, Hao Yang, Yong Liang, Shanshan Wang
现有的对比语言图像预训练旨在通过匹配丰富的图像文本对来学习联合表示。然而，医学数据集中的图像文本对的数量通常比自然数据集中的图像文本对的数量小几个数量级。此外，医学图像文本对通常涉及大量复杂的细粒度对应关系。本文旨在通过引入多对多局部关系建模来捕获更密集的监督来提高数据效率。更具体地说，我们提出了一种医学语言图像预训练 MLIP 框架，该框架通过补丁句子匹配更有效地利用有限的图像文本医学数据。此外，我们引入了一种具有语义完整性估计的掩码对比学习策略，以减少图像中的冗余，同时保留底层语义。

Real-Time Human Fall Detection using a Lightweight Pose Estimation Technique
Authors Ekram Alam, Abu Sufian, Paramartha Dutta, Marco Leo
世界各地的老年人口正在迅速增加。没有足够的照顾者。因此，基于人工智能在家庭医疗保健系统中的使用正在获得动力。人体跌倒检测是老年人医疗保健系统最重要的任务之一。人体跌倒是老年人的常见问题。尽早发现跌倒并提供医疗帮助对于降低进一步的复杂性非常重要。通过在跌倒后尽早发现并提供医疗帮助，可以减少死亡和其他医疗并发症的机会。目前有许多最先进的跌倒检测技术可用，但其中大多数需要非常高的计算能力。在本文中，我们提出了一种使用姿势估计的轻量级快速人体跌倒检测系统。我们使用 Movenet 进行人工连接关键点提取。我们提出的方法可以在任何具有任何基本相机的低计算设备上实时工作。所有计算都可以在本地处理，因此不存在主体隐私问题。我们使用两个数据集 GMDCSA 和 URFD 进行实验。我们得到数据集 GMDCSA 和 URFD 的灵敏度值分别为 0.9375 和 0.9167。

Enhancing the medical foundation model with multi-scale and cross-modality feature learning
Authors Weijian Huang, Cheng Li, Hong Yu Zhou, Jiarun Liu, Hao Yang, Yong Liang, Shanshan Wang
多模态医学基础模型的发展因其在各种临床应用中的广阔前景而引起了医学和保健领域的广泛关注。该研究方向的一个重点领域是不同尺度特征的提取。虽然以前的研究已经探索了个体尺度的特征学习，但缺乏对整合不同尺度和信息模式的研究，这可能会阻碍这些特征之间相互强化的潜力。本文旨在通过提出一种有效利用多尺度和跨模态信息来提高医学基础模型性能的方法来弥补这一差距。所提出的方法同时利用局部、实例、模态和全局方面的特征，促进模型内的全面表示学习。

Context-Guided Spatio-Temporal Video Grounding
Authors Xin Gu, Heng Fan, Yan Huang, Tiejian Luo, Libo Zhang
时空视频接地或 STVG 任务旨在为给定文本查询的特定实例定位时空管。尽管取得了进步，但由于文本中的对象信息不足，当前的方法很容易受到视频中干扰因素或重物外观变化的影响，从而导致性能下降。为了解决这个问题，我们提出了一种新颖的框架，上下文引导 STVG CG STVG，它挖掘视频中对象的判别性实例上下文，并将其用作目标定位的补充指导。 CG STVG 的关键在于两个专门设计的模块，包括实例上下文生成 ICG ，其重点是发现实例的外观和运动中的视觉上下文信息，以及实例上下文细化 ICR ，其旨在通过以下方式改进 ICG 的实例上下文：从上下文中消除不相关甚至有害的信息。在接地期间，ICG 与 ICR 一起部署在 Transformer 架构的每个解码阶段，例如上下文学习。特别是，从一个解码阶段学习到的实例上下文被馈送到下一阶段，并用作包含丰富且有区别的对象特征的指导，以增强解码特征中的目标感知，这反过来有利于生成更好的新实例上下文以最终改进定位。与现有方法相比，CG STVG 在文本查询中享受对象信息，并从挖掘的实例视觉上下文中获得指导，以实现更准确的目标定位。在我们对 HCSTVG v1 v2 和 VidSTG 等三个基准测试的实验中，CG STVG 在所有这些基准上都在 m tIoU 和 m vIoU 方面树立了新的技术水平，显示了其功效。

Test-Time Personalization with Meta Prompt for Gaze Estimation
Authors Huan Liu, Julia Qi, Zhenhao Li, Mohammad Hassanpour, Yang Wang, Konstantinos Plataniotis, Yuanhao Yu
尽管最近在注视估计方面取得了显着的成就，但无标签的注视估计的高效且准确的个性化是一个实际问题，但在文献中很少涉及。为了实现高效的个性化，我们从自然语言处理 NLP 的最新进展中汲取灵感，在测试时更新可忽略数量的参数、提示。具体来说，在不干扰原始网络的情况下额外附加提示，并且可以包含少于 1 个 ResNet 18 s 参数。我们的实验表明即时调整方法的效率很高。所提出的方法在适应速度方面比其他方法快 10 倍。然而，在没有标签的情况下更新个性化注视估计的提示并非易事。在测试时，必须确保最小化特定的无监督损失，从而实现最小化注视估计误差的目标。为了解决这个困难，我们建议对提示进行元学习，以确保其更新与目标保持一致。我们的实验表明，即使有简单的对称性损失，元学习提示也可以有效地适应。

Enhancing Generalization of Invisible Facial Privacy Cloak via Gradient Accumulation
Authors Xuannan Liu, Yaoyao Zhong, Weihong Deng, Hongzhi Shi, Xingchen Cui, Yunfeng Yin, Dongchao Wen
社交媒体和人脸识别系统的蓬勃发展增加了人们对隐私和安全的担忧。一种新型的通用的对抗性隐私斗篷类可以应用于普通用户的所有图像，以防止恶意的FR系统获取其身份信息。在这项工作中，我们发现了现有方法中的优化困境：大批量优化中的局部最优问题和小批量优化中的梯度信息消除问题。为了解决这些问题，我们提出梯度累积遗传算法，将多个小批量梯度聚合为一步迭代梯度，以增强梯度稳定性并减少量化操作的使用。

A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual Geo-Localization
Authors Shishen Li, Cuiwei Liu, Huaijun Qiu, Zhaokui Li
本文解决了无人机视觉地理定位的任务，其目的是匹配不同平台（即无人机和卫星）拍摄的同一地理目标的图像。一般来说，实现无人机卫星图像精确匹配的关键在于提取对视点变化、尺度变化和旋转具有鲁棒性的视觉特征。目前的工作表明，零件匹配对于无人机视觉地理定位至关重要，因为零件级表示可以捕获图像细节并有助于理解场景的语义信息。然而，在部分级别表示中保留语义特征的重要性尚未得到很好的讨论。在本文中，我们介绍了一种基于变压器的自适应语义聚合方法，该方法将部件视为图像中最具代表性的语义。图像块与不同部分的相关性是根据变换器的特征图来学习的。然后我们的方法将部分级特征分解为所有补丁特征的自适应总和。通过这样做，鼓励学习的部分关注具有典型语义的补丁。

View Distribution Alignment with Progressive Adversarial Learning for UAV Visual Geo-Localization
Authors Cuiwei Liu, Jiahao Liu, Huaijun Qiu, Zhaokui Li, Xiangbin Shi
无人机视觉地理定位旨在匹配从不同视图（即无人机视图和卫星视图）捕获的同一地理目标的图像。由于无人机卫星图像对的外观差异较大，因此非常具有挑战性。以前的工作将无人机和卫星捕获的图像映射到共享特征空间，并采用分类框架来学习位置相关特征，同时忽略无人机视图和卫星视图之间的整体分布变化。在本文中，我们通过引入两个视图的分布对齐来缩短它们在公共空间中的距离来解决这些限制。具体来说，我们提出了一种端到端网络，称为 PVDA Progressive View Distribution Alignment 。在训练过程中，特征编码器、位置分类器和视图鉴别器通过新颖的渐进式对抗学习策略进行联合优化。特征编码器和视图鉴别器之间的竞争促使它们都变得更强。事实证明，对抗性学习逐渐被强调，直到无人机视图图像与卫星视图图像无法区分。因此，所提出的 PVDA 在学习位置相关但视图不变的特征方面变得强大，并且对新位置的未见图像具有良好的可扩展性。

AttentionLut: Attention Fusion-based Canonical Polyadic LUT for Real-time Image Enhancement
Authors Kang Fu, Yicong Peng, Zicheng Zhang, Qihang Xu, Xiaohong Liu, Jia Wang, Guangtao Zhai
最近，许多算法已经采用图像自适应查找表LUT来实现实时图像增强。尽管如此，现有方法的普遍趋势是利用基本LUT的线性组合来制定图像自适应LUT，这限制了这些方法的泛化能力。为了解决这个限制，我们提出了一种名为 AttentionLut 的新颖框架，用于实时图像增强，它利用注意力机制来生成图像自适应 LUT。我们提出的框架由三个轻量级模块组成。我们首先使用全局图像上下文特征模块来提取图像自适应特征。随后，注意力融合模块将图像特征与训练期间获得的先验注意力特征相结合，生成图像自适应规范多元张量。最后，部署规范多元重建模块来重建图像自适应残差 3DLUT，随后用于增强输入图像。

One-Step Late Fusion Multi-view Clustering with Compressed Subspace
Authors Qiyuan Ou, Pei Zhang, Sihang Zhou, En Zhu
后期融合多视图聚类 LFMVC 凭借其出色的计算速度和聚类性能，已成为多视图聚类 MVC 领域中快速增长的一类方法。现有后期融合方法面临的一个瓶颈是它们通常与平均核函数对齐，这使得聚类性能高度依赖于数据集的质量。另一个问题是，在获得共识划分矩阵后，它们需要后续的 k 均值聚类以获得最终的离散标签，而由此产生的标签学习和聚类结构优化过程的分离限制了这些模型的完整性。为了解决上述问题，我们提出了一种名为 One Step Late Fusion Multi view Clustering with Compressed Subspace OS LFMVC CS 的集成框架。具体来说，我们在优化分区融合的同时使用共识子空间来对齐分区矩阵，并利用融合的分区矩阵来指导离散标签的学习。提出了一种经过验证的收敛性的六步迭代优化方法。

CRA-PCN: Point Cloud Completion with Intra- and Inter-level Cross-Resolution Transformers
Authors Yi Rong, Haoran Zhou, Lixin Yuan, Cheng Mei, Jiahao Wang, Tong Lu
由于遮挡、传感器分辨率有限等原因导致的不完整，点云补全是恢复完整点云不可或缺的任务。从粗到细的生成架构系列最近在点云补全方面取得了巨大成功，并逐渐成为主流。在这项工作中，我们揭示了这些方法背后的关键要素之一，即通过显式跨分辨率聚合精心设计的特征提取操作。我们提出了跨分辨率转换器，它可以通过局部注意机制有效地执行跨分辨率聚合。在我们的递归设计的帮助下，所提出的操作可以比常见的聚合操作捕获更多尺度的特征，这有利于捕获精细的几何特征。虽然现有方法已经尝试了层间交叉分辨率聚合的各种表现形式，但尚未分析一级内及其组合的有效性。通过统一设计，交叉分辨率转换器可以通过切换输入来执行层内或层间交叉分辨率聚合。我们将两种形式的交叉分辨率变换器集成到一个上采样块中以生成点，并按照从粗到细的方式构建 CRA PCN，以通过堆叠的采样块增量预测完整形状。大量的实验表明，我们的方法在几个广泛使用的基准上大大优于最先进的方法。

Boosting of Implicit Neural Representation-based Image Denoiser
Authors Zipei Yan, Zhengji Liu, Jizhou Li
隐式神经表示 INR 已成为无监督图像去噪的有效方法。然而，INR 模型通常过度参数化，因此这些模型在学习过程中容易过度拟合，导致结果不理想，甚至是有噪声的结果。为了解决这个问题，我们提出了一种在图像去噪中正则化 INR 模型的通用方法。具体来说，我们建议在学习过程中用从预测和监督信号得出的平均值迭代地替换监督信号。我们从理论上证明，这种简单的迭代替代可以逐渐增强监督信号的信噪比，从而有利于 INR 模型的学习过程。

DDN-SLAM: Real-time Dense Dynamic Neural Implicit SLAM with Joint Semantic Encoding
Authors Mingrui Li, Jiaming He, Guangan Jiang, Hongyu Wang
我们提出了 DDN SLAM，一种专为动态场景设计的实时密集神经隐式语义 SLAM 系统。虽然现有的神经隐式 SLAM 系统在静态场景中表现良好，但它们经常在现实环境中遇到动态干扰的挑战，导致跟踪和建图无效。

Collaborative Perception for Connected and Autonomous Driving: Challenges, Possible Solutions and Opportunities
Authors Senkang Hu, Zhengru Fang, Yiqin Deng, Xianhao Chen, Yuguang Fang
自动驾驶引起了学术界和工业界的高度关注，有望提供更安全、更高效的驾驶系统。然而，目前的自动驾驶系统大多基于单一车辆，存在很大的局限性，仍然对驾驶安全构成威胁。联网自动驾驶汽车的协作感知为克服这些限制提供了一种有前途的解决方案。在本文中，我们首先确定协作感知的挑战，例如数据共享异步、数据量和姿势错误。然后，我们讨论了利用各种技术应对这些挑战的可能解决方案，并详细阐述了研究机会。此外，我们提出了一种解决通信效率和延迟问题的方案，这是一种通道感知协作感知框架，可以动态调整通信图并最小化延迟，从而在提高通信效率的同时提高感知性能。

Retraining-free Model Quantization via One-Shot Weight-Coupling Learning
Authors Chen Tang, Yuan Meng, Jiacheng Jiang, Shuzhao Xie, Rongwei Lu, Xinzhu Ma, Zhi Wang, Wenwu Zhu
量化对于压缩过度参数化的深度神经模型并将其部署在资源有限的设备上具有重要意义。由于数值表示能力有限，固定精度量化会出现性能下降的问题。相反，混合精度量化MPQ被提倡通过为层分配异构位宽来有效地压缩模型。 MPQ 通常被组织成搜索再训练的两阶段过程。以前的工作只关注于在第一阶段有效地确定最佳位宽配置，而忽略了第二阶段的大量时间成本。然而，在最先进的 GPU 上，重新训练总是会消耗数百个 GPU 小时，从而极大地阻碍了部署效率。在本文中，我们设计了一种用于混合精度模型压缩的一次性训练搜索范例。具体来说，在第一阶段，所有潜在的位宽配置都被耦合，从而在一组共享权重内同时优化。然而，我们的观察揭示了优化过程中高度耦合的权重之间存在以前未曾见过的严重的位宽干扰现象，导致高压缩比下的性能显着下降。为了解决这个问题，我们首先设计了一个位宽调度器，在训练期间动态冻结层中最不稳定的位宽，以确保其余位宽正确收敛。

Glance and Focus: Memory Prompting for Multi-Event Video Question Answering
Authors Ziyi Bai, Ruiping Wang, Xilin Chen
视频问答 VideoQA 已成为评估智能体理解人类日常行为能力的重要工具。尽管大型视觉语言模型最近在许多多模态任务中取得了成功，但涉及多个人类对象交互事件的视频的复杂情境推理仍然具有挑战性。相比之下，人类可以通过使用一系列情节记忆作为锚点来快速定位问题相关的关键时刻进行推理，从而轻松解决这个问题。为了模仿这种有效的推理策略，我们提出了 Glance Focus 模型。一种简单的方法是应用动作检测模型来预测一组动作作为关键记忆。然而，封闭集合词汇中的这些动作很难推广到各种视频领域。相反，我们训练一个编码器解码器在浏览阶段生成一组动态事件记忆。除了使用有监督的二分匹配来获取事件记忆之外，我们还进一步设计了一种无监督的记忆生成方法来摆脱对事件注释的依赖。接下来，在聚焦阶段，这些事件记忆充当桥梁，在具有高水平事件概念的问题和低水平冗长视频内容之间建立关联。给定问题，模型首先关注生成的关键事件记忆，然后通过我们设计的多级交叉注意机制关注最相关的推理时刻。我们对四个多事件 VideoQA 基准进行了广泛的实验，包括 STAR、EgoTaskQA、AGQA 和 NExT QA。我们提出的模型取得了最先进的结果，在各种具有挑战性的推理任务中超越了当前的大型模型。

Multimodal self-supervised learning for lesion localization
Authors Hao Yang, Hong Yu Zhou, Cheng Li, Weijian Huang, Jiarun Liu, Yong Liang, Shanshan Wang
利用影像和诊断报告的多模态深度学习在医学影像诊断领域取得了令人瞩目的进展，在缺乏足够注释信息的情况下表现出特别强大的辅助诊断能力。尽管如此，在没有详细位置注释的情况下准确定位疾病仍然是一个挑战。尽管现有方法尝试利用局部信息来实现细粒度语义对齐，但它们提取报告中综合上下文的细粒度语义的能力是有限的。为了解决这个问题，我们引入了一种新方法，该方法将文本报告中的完整句子作为局部语义对齐的基本单位。我们的方法将胸部 X 射线图像与其相应的文本报告相结合，在全局和局部层面上进行对比学习。

LORE++: Logical Location Regression Network for Table Structure Recognition with Pre-training
Authors Rujiao Long, Hangdi Xing, Zhibo Yang, Qi Zheng, Zhi Yu, Cong Yao, Fei Huang
表格结构识别 TSR 旨在将图像中的表格提取为机器可理解的格式。最近的方法通过预测检测到的单元格的邻接关系或学习直接从表格图像生成相应的标记序列来解决这个问题。然而，现有的方法要么依赖额外的启发式规则来恢复表结构，要么面临捕获表内的长期依赖关系的挑战，从而导致复杂性增加。在本文中，我们提出了一种替代范式。我们将 TSR 建模为逻辑位置回归问题，并提出了一个名为 LORE 的新 TSR 框架，代表逻辑位置回归网络，它首次在统一网络中回归逻辑位置以及表单元格的空间位置。我们提出的 LORE 在概念上比 TSR 的其他范例更简单、更容易训练并且更准确。此外，受预训练模型在许多计算机视觉和自然语言处理任务上取得令人信服的成功的启发，我们提出了两个预训练任务来丰富 LORE 特征级别的空间和逻辑表示，从而产生了名为 LORE 的升级版本。事实证明，LORE 中预训练的结合具有显着的优势，与前身相比，在准确性、泛化性和少镜头能力方面都有显着增强。

S$^{2}$-DMs:Skip-Step Diffusion Models
Authors Yixuan Wang, Shuangyin Li
扩散模型已成为强大的生成工具，在样本质量上可与 GAN 相媲美，并反映自回归模型的似然评分。这些模型的一个子集（以 DDIM 为例）表现出固有的不对称性，它们在 T 个步骤上进行训练，但在生成过程中仅从 T 的子集进行采样。这种选择性采样方法虽然针对速度进行了优化，但却无意中错过了未采样步骤中的重要信息，从而导致样本质量可能受到影响。为了解决这个问题，我们提出了 S 2 DM，这是一种使用创新的 Lskip 的新训练方法，经过精心设计，可以重新整合选择性采样阶段遗漏的信息。这种方法的好处是多方面的，它显着提高了样本质量，实现起来非常简单，需要最少的代码修改，并且足够灵活，可以与各种采样算法兼容。在 CIFAR10 数据集上，使用我们的算法训练的模型在各种采样算法 DDIM、PNDM、DEIS 和不同数量的采样步骤 10、20、...、1000 中比使用传统方法训练的模型提高了 3.27 到 14.06。在 CELEBA 数据集上，改进范围为 8.97 到 27.08。

Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning for Video Question Answering
Authors Haopeng Li, Qiuhong Ke, Mingming Gong, Tom Drummond
虽然视频问答 VideoQA 取得了重大进展，但现有研究在很大程度上忽视了通过定制难度调度来增强模型泛化的潜在好处。本文旨在通过将 VideoQA 纳入课程学习 CL 框架来弥补这一差距，该框架逐步从更简单的数据到更复杂的数据训练模型。认识到传统的自定进度 CL 方法依赖于训练损失来进行难度测量，这可能无法准确反映视频问题对的复杂性，因此我们引入了不确定性感知 CL 的概念。在这里，不确定性作为动态调整难度的指导原则。此外，我们通过提出 VideoQA 的概率建模方法来解决不确定性带来的挑战。具体来说，我们将 VideoQA 概念化为随机计算图，其中隐藏表示被视为随机变量。这会产生两种不同类型的不确定性，一种与数据固有的不确定性有关，另一种与模型的置信度有关。在实践中，我们将VideoQA模型无缝集成到我们的框架中并进行全面的实验。

Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports
Authors Haopeng Li, Andong Deng, Qiuhong Ke, Jun Liu, Hossein Rahmani, Yulan Guo, Bernt Schiele, Chen Chen
对体育视频进行推理以进行问答是一项具有许多应用的重要任务，例如运动员训练和信息检索。然而，由于缺乏相关数据集及其所呈现的挑战性，这项任务尚未得到探索。大多数视频问答VideoQA数据集主要侧重于对日常生活视频的一般性和粗粒度的理解，不适用于需要专业动作理解和细粒度运动分析的运动场景。在本文中，我们介绍了第一个数据集，名为 Sports QA，专门为运动 VideoQA 任务设计。 Sports QA 数据集包含各种类型的问题，例如描述、年表、因果关系和反事实条件，涵盖多种运动。此外，为了解决运动 VideoQA 任务的特点，我们提出了一种新的 Auto Focus Transformer AFT，能够自动聚焦于特定尺度的时间信息来回答问题。我们对体育质量保证进行了广泛的实验，包括基线研究和不同方法的评估。

Incorporating Geo-Diverse Knowledge into Prompting for Increased Geographical Robustness in Object Recognition
Authors Kyle Buettner, Sina Malakouti, Xiang Lorraine Li, Adriana Kovashka
由于设计和环境方面的重大领域变化，现有的对象识别模型已被证明在不同的地理场景中缺乏鲁棒性。类表示需要进行调整，以更准确地反映这些转变下的对象概念。在缺乏来自目标地理位置的训练数据的情况下，我们假设可以利用对象类别的地理特定描述性知识来增强鲁棒性。为此，我们探索了探索地理特定对象知识的大型语言模型的可行性，并研究了将零样本知识和可学习的软提示与 CLIP 视觉语言模型相集成。特别是，我们提出了一种地理知识正则化方法，以确保在源地理集上训练的软提示能够推广到未见过的目标地理集。当从仅根据欧洲数据训练的模型进行概括时，我们在 DollarStreet 上的收益在非洲国家中高达 2.8，在最困难的类别中为 4.6。

Token Propagation Controller for Efficient Vision Transformer
Authors Wentao Zhu
视觉转换器 ViT 在各种计算机视觉任务上取得了有希望的结果，但是它们输入标记数量的二次复杂性限制了它们的应用，特别是在资源受限的环境中。以前采用逐步减少令牌来解决这一挑战的方法假设一层中的令牌冗余意味着所有后续层中的冗余。我们凭经验证明，这种假设通常是不正确的，即在一层中冗余的令牌在后面的层中可能有用。我们利用这一关键见解提出了一种新颖的令牌传播控制器 TPC，它结合了两种不同的令牌分布，即暂停概率和重新启动概率，分别控制令牌的减少和重用，从而提高令牌利用率。为了改进令牌分布的估计，我们提出了一种平滑机制，该机制充当正则化器并有助于消除噪声异常值。此外，为了提高我们提出的 TPC 的训练稳定性，我们引入了一种模型稳定器，它能够隐式编码局部图像结构并最大限度地减少模型训练期间的精度波动。我们使用 DeiT、LV ViT 和 Swin 模型在 ImageNet 1K 数据集上展示了广泛的实验结果，以证明我们提出的方法的有效性。

Efficient Hybrid Zoom using Camera Fusion on Mobile Phones
Authors Xiaotong Wu, Wei Sheng Lai, YiChang Shih, Charles Herrmann, Michael Krainin, Deqing Sun, Chia Kai Liang
单反相机可以通过改变镜头距离或交换镜头类型来实现多个变焦级别。然而，由于空间限制，这些技术在智能手机设备上是不可能的。大多数智能手机制造商采用混合变焦系统，通常是低变焦级别的广角 W 相机和高变焦级别的长焦 T 相机。为了模拟 W 和 T 之间的缩放级别，这些系统对 W 图像进行裁剪和数字上采样，从而导致大量细节丢失。在本文中，我们提出了一种在移动设备上实现混合变焦超分辨率的高效系统，该系统捕获一对同步的 W 和 T 镜头，并利用机器学习模型来对齐和传输从 T 到 W 的细节。我们进一步开发了一种自适应混合方法这解释了景深不匹配、场景遮挡、流动不确定性和对准误差。为了最大限度地减少域差距，我们设计了一个双手机摄像头装置来捕获现实世界的输入和地面事实以进行监督训练。

ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text
Authors Dingkun Yan, Liang Yuan, Yuma Nishioka, Issei Fujishiro, Suguru Saito
最近，扩散模型已经证明了它们在生成极高质量图像方面的有效性，并且已经找到了广泛的应用，包括自动草图着色。然而，大多数现有模型使用文本来指导条件生成，很少尝试探索使用图像标记作为网络条件输入的潜在优势。因此，本文详尽地研究了图像引导模型，特别针对基于参考的草图着色，其目的是使用参考彩色图像对草图图像进行着色。我们研究了基于参考的扩散模型的三个关键方面：与基于文本的模型相比的缺点、训练策略以及零样本、基于顺序文本的操作的能力。我们使用来自预先训练的 CLIP 图像编码器的不同图像标记引入了图像引导潜在扩散模型的两种变体，并且我们提出了相应的操作方法来使用加权文本输入顺序调整其结果。

A Survey on Autonomous Driving Datasets: Data Statistic, Annotation, and Outlook
Authors Mingyu Liu, Ekim Yurtsever, Xingcheng Zhou, Jonathan Fossaert, Yuning Cui, Bare Luka Zagar, Alois C. Knoll
随着硬件和深度学习方法的最新进展，自动驾驶已迅速发展并显示出令人鼓舞的性能。高质量的数据集是开发可靠的自动驾驶算法的基础。以往的数据集调查试图对数据集进行审查，但要么集中在有限的数量上，要么缺乏对数据集特征的详细调查。为此，我们从多个角度对 200 多个自动驾驶数据集进行了详尽的研究，包括传感器模式、数据大小、任务和上下文条件。我们引入了一种新颖的指标来评估每个数据集的影响，这也可以作为建立新数据集的指南。我们进一步分析数据集的注释过程和质量。此外，我们对几个重要数据集的数据分布进行了深入分析。

ProbMCL: Simple Probabilistic Contrastive Learning for Multi-label Visual Classification
Authors Ahmad Sajedi, Samir Khaki, Yuri A. Lawryshyn, Konstantinos N. Plataniotis
多标签图像分类在许多领域提出了一项具有挑战性的任务，包括计算机视觉和医学成像。最近的进展引入了基于图和基于转换器的方法来提高性能并捕获标签依赖性。然而，这些方法通常包括复杂的模块，需要大量计算并且缺乏可解释性。在本文中，我们提出了概率多标签对比学习 ProbMCL，这是一种解决多标签图像分类任务中的这些挑战的新颖框架。我们简单而有效的方法采用监督对比学习，其中基于决策阈值与锚图像共享足够标签的样本被引入为正集。该结构通过将正对嵌入拉在一起并推开低于阈值的负样本来捕获标签依赖性。我们通过将混合密度网络纳入对比学习并生成高斯混合分布来增强表示学习，以探索特征编码器的认知不确定性。我们通过对计算机视觉和医学成像领域的数据集进行实验来验证我们框架的有效性。我们的方法优于现有的最先进方法，同时在两个数据集上实现了较低的计算足迹。

Indoor Obstacle Discovery on Reflective Ground via Monocular Camera
Authors Feng Xue, Yicong Chang, Tianxi Wang, Yu Zhou, Anlong Ming
视觉障碍物发现是室内移动机器人自主导航的关键一步。成功的解决方案在多个场景中有很多应用。反射地面是例外之一。在这种情况下，地板上的反射类似于真实世界，这会混淆障碍物发现并使导航失败。我们认为，这个问题的关键在于获得反射和障碍的判别特征。请注意，障碍物和反射可以通过 3D 空间中的地平面分开。根据这一观察，我们首先引入一种基于预校准的地面检测方案，该方案使用机器人运动来预测地平面。由于机器人运动不受反射影响，该方案避免了反射导致的地面检测失败。给定检测到的地面，我们设计地面像素视差来描述像素相对于地面的位置。在此基础上，提出了一种统一的外观几何特征表示来描述矩形框内的对象。最终，基于检测框架分割，设计了外观几何融合回归器，以利用所提出的特征来发现障碍物。它还可以防止我们的模型过多地关注障碍物的一部分而不是整个障碍物。为了进行评估，我们引入了新的 Obstacle on Reflective Ground ORG 数据集，其中包含 15 个具有各种地面反射的场景，总共超过 200 个图像序列和 3400 个 RGB 图像。地面和障碍物的像素级注释提供了与我们的方法和其他方法的比较。通过减少反射的误检测，所提出的方法优于其他方法。

Off-Road LiDAR Intensity Based Semantic Segmentation
Authors Kasi Viswanath, Peng Jiang, Sujit PB, Srikanth Saripalli
LiDAR 用于自动驾驶，提供 3D 空间信息并实现越野环境中的准确感知，有助于障碍物检测、地图绘制和路径规划。基于学习的激光雷达语义分割利用机器学习技术对激光雷达点云中的对象和区域进行自动分类。由于存在具有不同颜色、纹理和未定义边界的不同对象，基于学习的模型在越野环境中表现不佳，这可能导致使用传统的基于几何的特征准确分类和分割对象的困难。在本文中，我们通过利用激光雷达强度参数来增强越野环境中的对象分割来解决这个问题。我们的方法在 RELLIS 3D 数据集中进行了评估，并产生了有希望的结果，作为初步分析，与更复杂的基于深度学习的基准相比，水坑和草地类的 MIoU 得到了改进。该方法经过了 Velodyne 和 Ouster LiDAR 系统之间的兼容性评估，确保其跨平台适用性。

Deep autoregressive modeling for land use land cover
Authors Christopher Krapu, Mark Borsuk, Ryan Calder
由于地理特征和与地形、生态和人类发展相关的不同空间模式之间存在长期依赖性，土地利用土地覆盖建模是一项具有挑战性的任务。我们确定了土地利用空间模式建模与计算机视觉图像修复任务之间的密切联系，并对经过修改的 PixelCNN 架构进行了研究，该架构具有约 1900 万个参数，用于对 LULC 进行建模。与基准空间统计模型相比，我们发现前者能够捕获更丰富的空间相关模式，例如道路和水体，但不能产生校准的预测分布，这表明需要进行额外的调整。

On Optimal Sampling for Learning SDF Using MLPs Equipped with Positional Encoding
Authors Guying Lin, Lei Yang, Yuan Liu, Congyi Zhang, Junhui Hou, Xiaogang Jin, Taku Komura, John Keyser, Wenping Wang
神经隐式场（例如形状的神经符号距离场 SDF）已成为许多应用的强大表示形式，例如编码 3D 形状和执行碰撞检测。通常，隐式字段由具有位置编码 PE 的多层感知器 MLP 进行编码，以捕获高频几何细节。然而，这种配备 PE 的 MLP 的一个显着副作用是学习的隐式字段中存在噪声伪影。虽然提高采样率通常可以减轻这些伪影，但在本文中，我们旨在通过傅里叶分析的镜头来解释这种不利现象。我们设计了一种工具来确定适当的采样率，以学习准确的神经隐式场，而不会产生不良副作用。具体来说，我们提出了一种简单而有效的方法，根据网络响应的傅立叶分析，使用随机权重来估计给定网络的固有频率。据观察，配备 PE 的 MLP 的固有频率远高于 PE 层中的最高频率分量。遵循奈奎斯特桑农采样定理针对该固有频率进行采样使我们能够确定适当的训练采样率。我们的经验表明，在SDF拟合的设置中，这个推荐的采样率足以保证准确的拟合结果，而进一步提高采样率不会进一步显着降低拟合误差。

Directional Antenna Systems for Long-Range Through-Wall Human Activity Recognition
Authors Julian Strohmayer, Martin Kampel
WiFi 信道状态信息基于 CSI 的人类活动识别 HAR 可在空间受限的环境中实现非接触式远距离传感，同时保护视觉隐私。然而，尽管我们周围存在大量支持 WiFi 的设备，但很少有设备向用户公开 CSI，从而导致缺乏传感硬件选项。 Espressif ESP32 的变体已成为基于 WiFi CSI 的 HAR 的潜在低成本且易于部署的解决方案。在这项工作中，评估了四个基于 ESP32 S3 的 2.4GHz 定向天线系统促进长距离穿墙 HAR 的能力。提出了两种有前途的系统，其中一种将 ESP32 S3 与定向双二阶天线相结合。据我们所知，这种组合代表了此类系统在基于 WiFi 的 HAR 中的首次演示。第二个系统依赖于 ESP32 S3 内置的印刷倒 F 天线 PIFA，并通过平面反射器实现方向性。在对视距LOS和非视距非视距HAR性能的综合评估中，两个系统均部署在跨5个房间、相距18米的办公环境中。在此实验设置中，收集并公开了 Wallhack1.8k 数据集，其中包含 1806 个人类活动的 CSI 幅度谱图。基于Wallhack1.8k，我们使用EfficientNetV2架构训练活动识别模型，以评估LOS和NLOS场景下的系统性能。

DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition
Authors Parul Gupta, Tuan Nguyen, Abhinav Dhall, Munawar Hayat, Trung Le, Thanh Toan Do
视觉关系识别 VRR 的任务旨在识别图像中两个交互对象之间的关系，由于主体、关系、对象三元组的广泛分布和高度不平衡的分布，该任务尤其具有挑战性。为了克服现有 VRR 方法中由此产生的性能偏差，我们引入了 DiffAugment 方法，该方法首先利用 WordNet 增强语言空间中的尾部类，然后利用扩散模型的生成能力来扩展少数类的视觉空间。我们在扩散中提出了一种新颖的硬度感知组件，它基于每个 S、R、O 三元组的硬度，并证明了硬度感知扩散在为尾部类生成视觉嵌入方面的有效性。我们还提出了一种新颖的基于主题和对象的扩散采样播种策略，该策略提高了生成的视觉嵌入的辨别能力。

Mapping Walnut water Stress with High Resolution Multispectral UAV Imagery and Machine Learning
Authors Kaitlyn Wang, Yufang Jin
有效监测整个果园的核桃水分状况和胁迫水平是核桃（加州重要作物）精准灌溉管理的重要一步。本研究提出了一种机器学习方法，通过将无人机飞行的高分辨率多光谱遥感图像与天气数据相结合，使用随机森林 RF 模型来绘制茎水势 SWP。 2017 年至 2018 年，配备七波段多光谱相机的无人机在商业核桃园上空进行了五次飞行，同时对核桃植株样本进行了地面测量。 RF 回归模型利用源自正射镶嵌无人机图像和天气数据的植被指数，有效地估计了地面测量的 SWP，实现了 0.63 的 R 2 和 0.80 条的平均绝对误差 MAE。天气数据的整合对于整合不同航班日期的数据尤其重要。 SWP 估计的重要变量包括风速和植被指数，例如 NDVI、NDRE 和 PSRI。排除 NDRE 和 PSRI 红边指数的简化 RF 模型显示，精度 R 2 0.54 略有降低。此外，RF 分类模型以 85 的准确度预测核桃树的水分胁迫水平，超过了简化分类模型的 80 的准确度。结果证实了基于无人机的多光谱成像与机器学习相结合，结合热数据、NDVI、红边指数和天气数据，在核桃水分胁迫估算和评估中的有效性。

Boosting Defect Detection in Manufacturing using Tensor Convolutional Neural Networks
Authors Pablo Martin Ramiro, Unai Sainz de la Maza, Roman Orus, Samuel Mugel
缺陷检测是制造业质量控制阶段最重要但最具挑战性的任务之一。在这项工作中，我们介绍了张量卷积神经网络 T CNN，并检查了其在罗伯特博世制造工厂生产的超声波传感器组件之一的实际缺陷检测应用中的性能。我们的量子启发 T CNN 在减少的模型参数空间上运行，可在不牺牲准确性的情况下大幅提高等效 CNN 模型的训练速度和性能。更具体地说，我们演示了 T CNN 如何能够达到与经典 CNN 相同的性能（按质量指标衡量），参数减少多达 15 倍，训练时间缩短 4 到 19 倍。

Fast Quantum Convolutional Neural Networks for Low-Complexity Object Detection in Autonomous Driving Applications
Authors Hankyul Baek, Donghyeon Kim, Joongheon Kim
在深度学习不断进步和创新的推动下，物体检测应用已经变得普遍，特别是在利用各种视觉数据的自动驾驶领域。随着卷积神经网络CNN的不断优化，自动驾驶中物体检测的性能和计算速度得到了显着提高。然而，由于目标检测中使用的数据的复杂性和规模呈指数级快速增长，仅使用经典计算进行目标检测时在计算速度方面存在限制。受此启发，提出了基于量子卷积的物体检测QCOD，以采用量子计算来高速执行物体检测。 QCOD 利用我们提出的快速量子卷积来上传输入通道信息并重新构造输出通道，以降低计算复杂性，从而提高性能。

Assisting Blind People Using Object Detection with Vocal Feedback
Authors Heba Najm, Khirallah Elferjani, Alhaam Alariyibi
对于视障人士来说，无论是在室内还是室外环境下独立移动、安全移动都是非常困难的。此外，这些身体和视觉上的挑战使他们无法进行日常活动。同样，他们在感知周围环境中可能对他们构成风险的物体时也存在问题。所提出的方法建议使用网络摄像头检测实时视频中的对象，以进行对象识别过程。 You Look Only Once 使用了 YOLO 模型，这是一种基于 CNN 的实时目标检测技术。此外，Python的OpenCV库用于实现软件程序并执行深度学习过程。图像识别结果通过谷歌文本转语音库以可听形式传输给视障用户，并确定对象相对于其在屏幕中的位置的位置。

Optimizing Convolutional Neural Network Architecture
Authors Luis Balderas, Miguel Lastra, Jos M. Ben tez
卷积神经网络 CNN 广泛用于应对语音识别、自然语言处理或计算机视觉等具有挑战性的任务。随着 CNN 架构变得越来越大、越来越复杂，它们的计算要求也随之增加，从而产生巨大的能源成本，并对它们在资源有限的设备上的部署提出了挑战。在本文中，我们提出了优化卷积神经网络架构 OCNNA，这是一种基于剪枝和知识蒸馏的新型 CNN 优化和构建方法，旨在确定卷积层的重要性。该提案已通过彻底的实证研究进行了评估，包括最著名的数据集 CIFAR 10、CIFAR 100 和 Imagenet 以及 CNN 架构 VGG 16、ResNet 50、DenseNet 40 和 MobileNet，将准确度下降和剩余参数比率设置为客观指标来比较性能OCNNA 与其他最先进方法的对比。我们的方法已与 20 多种卷积神经网络简化算法进行了比较，获得了出色的结果。

A Synthetic Modal Generation of Additive Manufacturing Roughness Surfaces from Images
Authors T.B. Keesom, P.P. Popov, P. Dhyani, G.B. Jacobs
提出了一种根据增材制造表面的电子显微镜扫描推断和综合外推粗糙度场的方法，该方法采用 Rogallo 的合成湍流方法 R. S. Rogallo，NASA 技术备忘录 81315，1981，基于傅里叶模式。生成的合成粗糙度场是平滑的，并且与计算流体动力学或其他数值模拟中的网格生成器兼容。与机器学习方法不同，机器学习方法可能需要二十多次表面粗糙度扫描来进行训练，基于傅立叶模式的方法可以使用单个物理粗糙度扫描将均匀的合成粗糙度场外推到任何所需的尺寸和范围。使用文献中的电子显微镜粗糙度图像生成五种类型的合成粗糙度场。

HawkRover: An Autonomous mmWave Vehicular Communication Testbed with Multi-sensor Fusion and Deep Learning
Authors Ethan Zhu, Haijian Sun
联网和自动化车辆 CAV 已成为一项变革性技术，可以改变我们的日常生活。目前，毫米波 mmWave 频段被认为是有前途的 CAV 连接解决方案。虽然它可以提供高数据速率，但其实现面临许多挑战，例如毫米波信号传播和移动管理期间的高衰减。现有的解决方案必须发起导频信号来测量信道信息，然后应用信号处理来计算朝向接收端的最佳窄波束，以保证足够的信号功率。这个过程需要大量的开销和时间，因此不适合车辆。在本研究中，我们提出了一个自主且低成本的测试平台，用于收集广泛的同位毫米波信号和其他传感器数据，例如激光雷达光检测和测距、摄像头、超声波等，传统上用于自动化，以促进毫米波车辆通信。直观地说，这些传感器可以在车辆周围构建 3D 地图，并且可以估计信号传播路径，从而消除通过引导信号的迭代过程。

VGA: Vision and Graph Fused Attention Network for Rumor Detection
Authors Lin Bai, Caiyan Jia, Ziying Song, Chaoqun Cui
随着社交媒体的发展，谣言在社交媒体平台上广泛传播，给社会造成了巨大危害。除了文本信息之外，许多谣言还使用经过处理的图像或隐藏图像中的文本信息来欺骗人们并避免被检测到，这使得多模态谣言检测成为一个关键问题。大多数多模态谣言检测方法主要集中于提取来源声明及其相应图像的特征，而忽略了谣言的评论及其传播结构。这些评论和结构蕴含着群众的智慧，并被证明对于揭穿谣言至关重要。而且，这些方法通常仅以基本方式提取视觉特征，很少考虑图像中的篡改或文本信息。因此，在本研究中，我们提出了一种新颖的视觉和图融合注意力网络VGA用于谣言检测，利用帖子之间的传播结构来获取人群意见，并进一步探索视觉篡改特征以及隐藏在图像中的文本信息。

Image Sculpting: Precise Object Editing with 3D Geometry Control
Authors Jiraphon Yenphraphai, Xichen Pan, Sainan Liu, Daniele Panozzo, Saining Xie
我们推出了图像雕刻，这是一种通过结合 3D 几何和图形工具来编辑 2D 图像的新框架。这种方法与现有方法明显不同，现有方法仅限于二维空间，并且通常依赖于文本指令，导致模糊性和有限的控制。图像雕刻将 2D 对象转换为 3D，从而能够与其 3D 几何体直接交互。编辑后，这些对象被重新渲染为 2D，合并到原始图像中，通过从粗到细的增强过程产生高保真度结果。该框架支持精确、可量化且物理上合理的编辑选项，例如姿势编辑、旋转、平移、3D 合成、雕刻和串行添加。

Modality Exchange Network for Retinogeniculate Visual Pathway Segmentation
Authors Hua Han 1 and 2 , Cheng Li 1 , Lei Xie 3 , Yuanjing Feng 3 , Alou Diakite 1 and 2 , Shanshan Wang 1 and 4 1 Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Shenzhen, China, 2 University of Chinese Academy of Sciences, Beijing, China, 3 College of Information Engineering, Zhejiang University of Technology, Hangzhou, China, 4 Peng Cheng Laboratory, Shenzhen, China
视网膜原代视觉通路 RGVP 的准确分割通过识别通路内的破坏或异常来帮助诊断和治疗视觉障碍。然而，RGVP 复杂的解剖结构和连接性使得实现精确分割具有挑战性。在本研究中，我们提出了一种新颖的模态交换网络 ME Net，它有效地利用多模态磁共振 MR 成像信息来增强 RGVP 分割。我们的 ME Net 有两个主要贡献。首先，我们介绍一种有效的多模态软交换技术。具体来说，我们设计了一个通道和空间混合注意模块来交换 T1 加权和分数各向异性 MR 图像之间的模态信息。其次，我们提出了一个交叉融合模块，进一步增强两种模式之间的信息融合。

Performance Evaluation of GPS Trajectory Rasterization Methods
Authors Necip Enes Gengec, Ergin Tari
随着不同 GPS 接收器的可用性以及各种移动服务的使用的增加，全球定位系统 GPS 轨迹数据的可用性也在不断增加。 GPS轨迹是重要的数据源，通过使用图像处理和机器学习方法等不同方法，用于交通密度检测、运输模式检测、地图数据推断。随着数据大小的增加，在这些方法中使用此类数据的有效表示变得越来越困难。一种常见的方法是将GPS轨迹信息（例如平均速度、方位等）以栅格图像的形式表示并应用分析方法。在本研究中，我们使用 QGIS、PostGIS QGIS 的空间连接功能以及用 Python 编程语言编码的迭代空间结构化网格聚合实现来评估 GPS 轨迹数据栅格化。我们的实现也是可并行化的，并且这种并行化也作为第四种方法包含在内。根据使用示例 GPS 轨迹数据集进行的实验结果，相对于我们使用总处理时间度量的方法，QGIS 方法和 PostGIS QGIS 方法表现出相对较低的性能。 PostGIS QGIS 方法在空间连接方面取得了最佳结果，但随着测试区域大小的增加，其总体性能迅速下降。另一方面，我们的两种方法的性能下降都与 GPS 点成正比。

GPT-4V(ision) is a Generalist Web Agent, if Grounded
Authors Boyuan Zheng, Boyu Gou, Jihyung Kil, Huan Sun, Yu Su
大型多模态模型 LMM 的最新发展，特别是 GPT 4V ision 和 Gemini，已经迅速扩展了多模态模型的能力边界，超越了图像字幕和视觉问答等传统任务。在这项工作中，我们探索了像 GPT 4V 这样的 LMM 作为通用网络代理的潜力，它可以遵循自然语言指令来完成任何给定网站上的任务。我们提出了 SEEACT，这是一种通用网络代理，它利用 LMM 的力量来实现集成的视觉理解和在网络上的操作。我们对最近的 MIND2WEB 基准进行评估。除了对缓存网站进行标准离线评估之外，我们还通过开发允许在实时网站上运行 Web 代理的工具来启用新的在线评估设置。我们表明，GPT 4V 为网络代理提供了巨大的潜力，如果我们手动将其文本计划转化为网站上的操作，它可以成功完成实时网站上的 50 项任务。这大大优于纯文本法学硕士（如 GPT 4）或专门针对网络代理进行微调的较小模型 FLAN T5 和 BLIP 2。然而，接地仍然是一个重大挑战。现有的 LMM 基础策略（例如标记提示集）对于 Web 代理来说并不有效，而我们在本文中开发的最佳基础策略同时利用了 HTML 文本和视觉效果。

Multi-modal Learning with Missing Modality in Predicting Axillary Lymph Node Metastasis
Authors Shichuan Zhang, Sunyi Zheng, Zhongyi Shui, Honglin Li, Lin Yang
多模态学习在医学图像分析中引起了广泛的关注。使用多模态数据、全幻灯片图像 WSI 和临床信息，可以提高深度学习模型在腋窝淋巴结转移诊断中的性能。然而，由于隐私问题、资源有限、缺乏互操作性等原因，临床信息在临床实践中并不容易收集。尽管患者选择可以确保训练集具有用于模型开发的多模态数据，但可能会出现临床信息模态缺失的情况测试期间。这通常会导致性能下降，从而限制了多模态模型在临床中的使用。为了缓解这个问题，我们提出了一个由多模态分支和单模态分支组成的双向蒸馏框架。单模态分支从多模态分支获取完整的多模态知识，而多模态则从单模态学习WSI的鲁棒特征。我们在早期乳腺癌淋巴结转移的公共数据集上进行了实验来验证该方法。我们的方法不仅在没有丢失数据的测试集上实现了最先进的性能，AUC 为 0.861，而且当模态缺失率为 80 时，AUC 为 0.842。这表明该方法在处理多模态数据和缺失模态方面的有效性。

DDPM based X-ray Image Synthesizer
Authors Praveen Mahaulpatha, Thulana Abeywardane, Tomson George
医疗行业高质量数据集的获取限制了机器学习模型的性能。为了解决这个问题，我们提出了一种与 UNet 架构相结合的去噪扩散概率模型 DDPM，用于 X 射线图像合成。我们的方法以肺炎医疗状况为重点，采用从 Kaggle 获得的 3000 多张肺炎 X 射线图像进行训练。结果证明了我们方法的有效性，因为该模型成功生成了具有低均方误差 MSE 的逼真图像。合成图像与非肺炎图像显示出明显差异，凸显了模型捕捉阳性病例关键特征的能力。除了肺炎之外，只要有足够的数据集可用，该合成器的应用还可以扩展到各种医疗条件。生成高质量图像的能力可以潜在地增强机器学习模型的性能，有助于更准确、更高效的医疗诊断。

From Pixel to Slide image: Polarization Modality-based Pathological Diagnosis Using Representation Learning
Authors Jia Dong, Yao Yao, Yang Dong, Hui Ma
甲状腺癌是最常见的内分泌恶性肿瘤，准确区分甲状腺肿瘤的良恶性对于临床制定有效的治疗方案至关重要。在病理学上，甲状腺肿瘤由于标本取样不当而带来诊断挑战。在本研究中，我们设计了一个三阶段模型，使用表示学习来整合像素级和切片级注释来区分甲状腺肿瘤。该结构包括用于预测与甲状腺肿瘤相关的结构的病理结构识别方法、通过学习图像块的特征表示来提取像素级注释信息的编码器解码器网络以及用于最终分类任务的基于注意力的学习机制。该机制学习病理区域中不同图像块的重要性，全局考虑每个块的信息。在第三阶段，使用注意力机制聚合来自区域中图像块的所有信息，然后进行分类以确定该区域的类别。实验结果表明，我们提出的方法可以更准确地预测微观结构。颜色编码后，该方法在未染色的病理切片上获得的结果与苏木精和伊红染色的质量接近，从而减少了对染色病理切片的需求。

SwapTransformer: highway overtaking tactical planner model via imitation learning on OSHA dataset
Authors Alireza Shamsoshoara, Safin B Salih, Pedram Aghazadeh
本文研究了高速公路场景中有关变换车道和超越其他速度较慢的车辆的高层决策问题。特别是，本文旨在改进高速公路上自动超车和变道的旅行辅助功能。模拟中收集了约900万个样本，包括车道图像和其他动态物体。为了应对这一挑战，发布了模拟高速公路 OSHA 数据集上的超车数据。为了解决这个问题，设计并实现了一种名为 SwapTransformer 的架构，作为 OSHA 数据集上的模仿学习方法。此外，还提出了未来点和汽车距离网络预测等辅助任务，以帮助模型更好地理解周围环境。所提出的解决方案的性能与多层感知器 MLP 和多头自注意力网络作为模拟环境中的基线进行了比较。我们还展示了有和没有辅助任务的模型的性能。所有模型都根据不同的指标进行评估，例如完成每圈的时间、超车次数以及与速度限制的速度差。

Tissue Artifact Segmentation and Severity Analysis for Automated Diagnosis Using Whole Slide Images
Authors Galib Muhammad Shahriar Himel
传统上，病理分析和诊断是由专家在显微镜下手动观察载玻片标本来进行的。整个载玻片图像是由载玻片产生的数字标本。整个载玻片图像使得能够在计算机屏幕上观察标本，并导致计算病理学，其中计算机视觉和人工智能用于自动分析和诊断。随着当前计算的进步，整个幻灯片图像可以在没有人工监督的情况下进行自主分析。然而，如果整个载玻片图像受到组织伪影（例如组织折叠或气泡）的影响（具体取决于严重程度），则分析可能会失败或导致错误的诊断。现有的伪影检测方法依赖专家进行严重性评估，以从分析中消除伪影影响的区域。此过程非常耗时、费力，并且会破坏自动分析或删除伪影而不评估其严重性的目标，这可能会导致诊断上重要的数据丢失。因此，有必要检测工件，然后自动评估其严重性。在本文中，我们提出了一种利用卷积神经网络将严重性评估与伪影检测相结合的系统。所提出的系统使用 DoubleUNet 来分割伪影，并使用六个微调卷积神经网络模型的集成网络来确定严重性。该方法在伪影分割方面的准确度比当前最先进的技术高出了 9%，并且与病理学家对严重性评估的评估实现了 97% 的强相关性。

Predicting Infant Brain Connectivity with Federated Multi-Trajectory GNNs using Scarce Data
Authors Michalis Pistos, Islem Rekik
了解出生后第一年婴儿大脑网络的复杂进化对于确定早期大脑连接发展的动态至关重要。现有的深度学习解决方案面临三个主要限制。首先，它们不能推广到多轨迹预测任务，其中每个图形轨迹对应于特定的成像模式或连接类型，例如 T1 w MRI。其次，现有模型需要大量的训练数据集才能获得令人满意的性能，而这通常很难获得。第三，他们没有有效地利用不完整的时间序列数据。为了解决这些限制，我们引入了 FedGmTE Net，这是一种基于联合图的多轨迹进化网络。利用联盟的力量，我们利用有限的数据集汇总了不同医院之间的本地学习成果。因此，我们提高了每家医院本地生成模型的性能，同时保护数据隐私。 FedGmTE Net 的三个关键创新是：i 提出第一个联邦学习框架，专门为数据稀缺环境中的大脑多轨迹进化预测而设计；ii 在局部目标函数中加入辅助正则化器，以利用进化轨迹内的所有纵向大脑连接并最大化数据利用率，iii 引入两步插补过程，包括基于 KNN 的初步预完成，然后是插补细化步骤，该步骤使用回归器来提高相似性分数并细化插补。

Exploring Multi-Modal Control in Music-Driven Dance Generation
Authors Ronghui Li, Yuqin Dai, Yachao Zhang, Jun Li, Jian Yang, Jie Guo, Xiu Li
现有的音乐驱动的3D舞蹈生成方法主要集中于高质量的舞蹈生成，但在生成过程中缺乏足够的控制。为了解决这些问题，我们提出了一个统一的框架，能够生成高质量的舞蹈动作并支持多模态控制，包括流派控制、语义控制和空间控制。首先，我们将舞蹈生成网络与舞蹈控制网络解耦，从而避免添加额外控制信息时舞蹈质量的下降。其次，针对不同的控制信息设计具体的控制策略，并将其整合到一个统一的框架中。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com