w~大模型~合集24

我自己的原文哦~ https://blog.51cto.com/whaosoft/12707697

#Time Travelling Pixels (TTP)

一种名为“时空旅行”（TTP）的新方法，该方法将SAM基础模型的通用知识整合到变化检测任务中。该方法有效地解决了在通用知识转移中的领域偏移问题，以及大模型在表达多时相图像同质性和异质性特征时的挑战。基于大模型的遥感图像变化检测

“Time Travelling Pixels: Bitemporal Features Integration with Foundation Model for Remote Sensing Image Change Detection”（时空旅行：基于大模型双时相特征融合的遥感图像变化检测）

Paper: https://arxiv.org/abs/2312.16202

Code: https://github.com/KyanChen/TTP

变化检测是遥感领域的一个重要研究领域，对于观察和分析地表变化起着关键作用。尽管基于深度学习的方法在该领域取得了显著的成果，但在时空复杂的遥感场景中执行高精度的变化检测仍然是一个重大挑战。最近流行的基础模型，凭借其强大的通用能力和泛化能力，为该问题提供了潜在的解决方案。然而，如何弥补不同数据域和任务域之间的鸿沟仍然是一个挑战。在本文中，作者介绍了一种名为“时空旅行”（TTP）的新方法，该方法将SAM基础模型的通用知识整合到变化检测任务中。该方法有效地解决了在通用知识转移中的领域偏移问题，以及大模型在表达多时相图像同质性和异质性特征时的挑战。在LEVIR-CD上取得的SOTA结果证明了TTP的有效性。

随着对地观测技术的发展，遥感图像变化检测已经成为该领域研究的前沿和热点。其主要目标是分析多时相遥感产品中感兴趣的变化，这些变化通常表现为像素级的二元分类（变化/未变化）。遥感地面的动态属性不仅受自然因素的影响，也受人类活动的影响。精确感知这些变化对于土地覆盖的定量分析具有极其重要的意义，可以作为描绘宏观经济趋势、人类活动和气候变化的有力工具。

高分辨率遥感图像已经成为复杂变化检测的有力工具。然而，在复杂场景中执行稳健的变化检测仍然是一个艰巨的挑战。变化检测聚焦“非语义变化”中的“有效变化”，即，由大气条件、遥感器、配准等引起的非语义变化，以及与下游应用无关的语义变化都应该被忽略。这对开展精准的变化检测任务提出了相当大的挑战。深度学习技术在变化检测领域取得了显著的进步。例如，基于CNN的算法可以通过其强大的特征提取能力揭示变化区域的稳健特征，从而在各种复杂场景中取得了令人印象深刻的性能。最近，基于Transformer的方法进一步加速了这个领域的发展，Transformer可以捕捉整个图像中的长距离依赖关系，赋予模型全局感受野，为需要高级语义知识的任务（如变化检测）开辟了新的途径。尽管这些方法取得了显著的成功，但它们在复杂和不断变化的时空环境中的适应性仍然距离实际应用有相当大的距离。此外，随着模型规模的扩大，变化检测有限的标注数据也显著限制了这些模型的潜力。虽然自监督表示学习和模拟数据生成等取得了一些进展，但它们仍然无法完全覆盖由时空变化引起的遥感图像场景的多样性。也无法推动大参数模型在不同场景中的性能。

基础模型强大的通用性和适应性已经得到了证明。这些模型在大量数据上进行训练，从而获得了通用的知识和表示。视觉领域的基础模型，如CLIP和SAM，已经被研究人员广泛研究和利用。这些模型是大量通用知识的存储库，可以进行跨领域的转移和共享，能够大大减少特定任务标注数据的需求。然而，当前的视觉基础模型主要是为自然图像设计的，这些模型用于遥感图像变化检测任务时会产生领域差异。此外，大多数视觉基础模型擅长理解单个图像，在提取多个图像同质性和异质性特征的方面表现不佳，特别是当图像中发生显著变化时，而这种能力对于变化检测来说是至关重要的。

本文将视觉基础模型的通用知识融入到变化检测任务中。该方法克服了在知识转移过程中遇到的领域偏移问题，以及表达多时相图像的同质性和异质性特征的挑战。文中引入了一种名为“时空旅行”（TTP）的方法，该方法将时相信息无缝地集成到像素语义特征空间中。具体来说，TTP利用了SAM模型的通用分割知识，并将引入低秩微调参数到SAM主干中来缓解空间语义的领域偏移。此外，TTP提出了一个时间旅行激活门，允许时相特征渗透到像素语义空间，从而赋予基础模型理解双时相图像之间的同质性和异质性特征的能力。最后，文中设计了一个轻量高效的多层级变化预测头来解码密集的高级变化语义特征。该方法为开展准确高效的遥感图像变化检测铺平了道路。

1）作者通过将基础模型的通用潜在知识转移到变化检测任务，解决了注释数据不足的问题。在文章中，通过引入时间旅行像素（TTP）来弥补知识转移过程中的时空领域差距。

2）具体来说，作者引入了低秩微调以缓解空间语义的领域偏移，提出了一个时间旅行激活门以增强基础模型识别图像间相关性的能力，并设计了一个轻量高效的多层级预测头来解码基础模型中封装的密集语义信息。

3）作者在LEVIR-CD数据集上将提出的方法与各种先进的方法进行了比较。结果表明，该方法达到了最先进的性能，突显了其有效性和进一步应用的潜力。

方法

Overview

为了减轻变化检测的注释需求，本文利用了从基础模型转移过来的通用知识。作者利用SAM的通用分割能力来构建一个变化检测网络，即TTP。TTP主要由三个部分组成：基于低秩微调的基础模型主干；插入双时相图像特征间的时间旅行激活门；以及一个高效的多层级解码头。其结构如图1所示。

Efficient Fine-tuning of Foundation Model

SAM的主干由Transformer编码器组成，可以分为base版、large版和huge版，分别对应12层、24层和32层。为了提高计算效率，主干中的大部分Transformer层使用局部注意力，只有四层使用全局注意力。在本文中利用预训练的视觉主干，保持其参数处于冻结状态，以加速适应下游任务。为了弥补自然图像和遥感图像领域之间的差距，在多头注意力层中引入了低秩可训练参数，如下式所示，

Time-traveling Activation Gate

当前的视觉基础模型擅长理解单个图像的内容，在提取图像间的特征时表现不佳。然而，在变化检测中，专注于双时相图像中的“有效差异”而忽略“无关差异”是至关重要的。为了解决这个问题，文中引入了时间旅行激活门，它促进了时相特征流入像素特征的语义空间。这使基础模型能够理解双时相图像中的变化，并关注“有效变化”。为了提高效率，只在主干中的全局注意力层后加入激活门，按照下面的公式来整合双时相信息，

Multi-level Decoding Head

遥感图像的场景多样，地物的尺度存在显著变化。然而，基于ViT的视觉编码器通常只生成单一尺度的特征图。尽管这些图包含了高级的全局语义信息，但如果没有多层级的解码头，它们的性能优势可能难以显现。为了解决这个问题，文中设计了一个轻量高效的多层级变化预测头。该头通过转置卷积上采样和最大池化下采样来构建多级特征。然后使用一个轻量级的MLP映射层来输出最终的变化概率图，

实验

作者在LEVIR-CD上进行了实验。为了评估性能，采用广泛认可交并比（IoU）、F1分数、精确度和召回率，以及总体准确度（OA）。

作者将提出的TTP与一系列最先进的变化检测方法进行了比较，包括FC-Siam-Di、DTCDSCN、STANet、SNUNet、BIT、ChangeFormer、ddpm-CD、WNet 和CSTSUNet。比较结果如表1所示，提出的TTP达到了最高的性能（92.1/85.6 F1/IoU），显著超过了当前的先进方法，如WNet（90.7/82.9）和CSTSUNet（90.7/83.0）。这表明了从基础模型转移通用知识可以增强变化检测，同时也验证了提出的转移方法的有效性。

如表1所示，当移除时间旅行门（ttg）和多级解码头（ml）时，性能会有所下降。此外，从基础模型中移除低秩微调参数会导致性能大幅下降。这些观察结果强调了本文提出的方法可以有效地弥补领域差距并增强时空理解。它们同时也验证了每个组件在变化检测任务中的有效性。

结论

本文通过将基础模型的通用知识融入变化检测任务，缓解了复杂时空遥感场景下模型难泛化的挑战。具体来说，作者引入了低秩微调来弥补自然图像和遥感图像之间的空间语义鸿沟，缓解了基础模型的局限性；提出了一个时间旅行激活门，使基础模型具有时相建模的能力。此外设计了一个多层级变化预测头来解码密集特征。在LEVIR-CD数据集上的实验结果表明了提出方法的有效性，该方法能在单卡4090上进行训练。

#腾讯优图实验室~论文4

AAAI 2024 (AAAI Conference on Artificial Intelligence) 人工智能国际会议于近日公布论文录用结果，本届会议共收到9862篇份论文投稿，最终录用2342篇论文，录用率23.75%。

AAAI 是美国人工智能协会主办的年会，同时也是人工智能领域中历史最悠久、涵盖内容最广泛的的国际顶级学术会议之一。

今年，腾讯优图实验室共有27篇论文入选，内容涵盖表格结构识别、异常图像生成、医学图像分割等多个研究方向，展示了腾讯优图在人工智能领域的技术能力和学术成果。

以下为腾讯优图实验室入选论文概览：

01 抓取你所需：通过灵活组件重新思考复杂场景的表格结构识别

Grab What You Need: Rethinking Complex Table Structure Recognition with Flexible Components Deliberation

Hao Liu*, Xin Li*, Mingming Gong, Bing Liu, Yunfei Wu, Deqiang Jiang, Yinsong Liu, Xing Sun

最近，表格结构识别任务，旨在将表格结构识别为机器可读格式，已经在社区中引起了越来越多的关注。尽管近来的研究取得了令人印象深刻的成功，但大多数基于单一表格组件的方法在受到不仅复杂的内部结构，还有外部捕获失真的干扰的不规则表格案例上表现不佳。在本文中，我们将其定义为复杂场景的表格结构识别问题，现有方法的性能退化归因于它们对组件的使用效率低下和冗余的后处理。为了缓解这个问题，我们将视角从表格组件提取转向有效利用多个组件。具体来说，我们提出了一种名为GrabTab的开创性方法，配备了新提出的组件审议器。得益于其渐进式审议机制，我们的GrabTab可以灵活地适应大多数复杂的表格，选择合理的组件，但不涉及复杂的后处理。在公开基准上的定量实验结果表明，我们的方法显著优于最先进的技术，尤其是在更具挑战性的场景下。

论文链接：

https://arxiv.org/abs/2303.09174

02 基于扩散的多类异常检测框架

DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection

Haoyang He, Jiangning Zhang, Hongxu Chen, Xuhai Chen, Zhishan Li, Xu Chen, Yabiao Wang, Chengjie Wang, Lei Xie

基于重构的方法在异常检测中取得了显著的成果。近期流行的扩散模型的卓越图像重构能力激发了研究人员利用它们来增强异常图像的重构的研究努力。然而，这些方法可能面临与保持图像类别和像素级结构完整性在更实际的多类设置中的挑战。为了解决上述问题，我们提出了一个基于扩散的异常检测（DiAD）框架，用于多类别异常检测，该框架包括一个像素空间的自编码器，一个与稳定扩散的去噪网络相连的潜在空间的语义引导（SG）网络，以及一个特征空间的预训练特征提取器。首先，SG网络被提出用于重构异常区域，同时保留原始图像的语义信息。其次，我们引入了空间感知特征融合（SFF）块，以在处理大量重构区域时最大化重构精度。第三，输入和重构的图像由预训练的特征提取器处理，以根据在不同尺度上提取的特征生成异常图。在MVTec-AD和VisA数据集上的实验证明了我们的方法的有效性，它超越了最先进的方法，例如，在多类别MVTec-AD数据集上分别达到了96.8/52.6和97.2/99.0（AUROC/AP）的定位和检测效果。

论文链接：

https://lewandofskee.github.io/projects/diad/

https://arxiv.org/abs/2312.06607

03 基于扩散模型的少样本异常图像生成

AnomalyDiffusion: Few-Shot Anomaly Image Generation with Diffusion Model

Teng Hu, Jiangning Zhang, Ran Yi, Yuzhen Du, Xu Chen, Liang Liu, Yabiao Wang, Chengjie Wang

异常检查在工业制造中起着重要的作用。现有的异常检查方法由于异常数据不足而在性能上受到限制。尽管已经提出了异常生成方法来增加异常数据，但它们要么生成真实性差，要么生成的异常和掩模之间的对齐不准确。为了解决上述问题，我们提出了AnomalyDiffusion，这是一种新颖的基于扩散的少样本异常生成模型，它利用从大规模数据集中学习到的潜在扩散模型的强先验信息，以增强在少样本训练数据下的生成真实性。首先，我们提出了空间异常嵌入，它由一个可学习的异常嵌入和一个从异常掩模编码的空间嵌入组成，将异常信息解耦为异常外观和位置信息。此外，为了提高生成的异常和异常掩模之间的对齐，我们引入了一种新颖的自适应注意力重新加权机制。基于生成的异常图像和正常样本之间的差异，它动态地引导模型更多地关注生成的异常不太明显的区域，从而使得能够生成准确匹配的异常图像-掩模对。大量的实验表明，我们的模型在生成真实性和多样性方面显著优于最先进的方法，并有效地提高了下游异常检查任务的性能。

论文链接：

https://sjtuplayer.github.io/anomalydiffusion-page/

https://arxiv.org/abs/2312.05767

04 自监督似然估计与能量引导在城市场景异常分割中的应用

Self-supervised Likelihood Estimation with Energy Guidance for Anomaly Segmentation in Urban Scenes

Yuanpeng Tu, Yuxi Li, Boshen Zhang, Liang Liu, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Cai Rong Zhao

稳健的自动驾驶需要代理准确识别城市场景中的意外区域。为此，一些关键问题仍然悬而未决：如何设计合适的度量来衡量异常，以及如何正确生成异常数据的训练样本？以前的工作通常依赖于分类任务的不确定性估计和样本合成，这忽略了上下文信息，有时还需要具有细粒度注释的辅助数据集。相反，在本文中，我们利用分割任务的强上下文依赖性，设计了一个能量引导的自监督框架，用于异常分割，通过最大化自生成的异常像素的似然来优化异常头。为此，我们设计了两个异常似然估计器，一个是简单的任务无关的二元估计器，另一个将异常似然描述为任务导向能量模型的残差。基于所提出的估计器，我们进一步将我们的框架与似然引导的掩码细化过程结合，以提取有信息的异常像素进行模型训练。我们在具有挑战性的Fishyscapes和Road Anomaly基准上进行了广泛的实验，结果表明，即使没有任何辅助数据或合成模型，我们的方法仍然可以与其他SOTA方案实现竞争性能。

论文链接：

https://arxiv.org/abs/2302.06815

05 重新思考多模态异常检测的反向蒸馏

Rethinking Reverse Distillation for Multi-Modal Anomaly Detection

Zhihao Gu, Jiangning Zhang, Liang Liu, Xu Chen, Jinlong Peng, Zhenye Gan, Yabiao Wang, Annan Shu, Guannan Jiang, Lizhuang Ma

近年来，利用彩色图像进行工业场景的异常检测已取得了显著的进展，但仅依靠RGB图像无法识别出所有的异常。作为补充，引入额外的模态，如深度和表面法线图，可以帮助检测这些异常。为此，我们提出了一种新颖的多模态反向蒸馏（MMRD）范式，该范式包括一个冻结的多模态教师编码器用于生成蒸馏目标，以及一个可学习的学生解码器，目标是从教师那里恢复多模态表示。具体来说，教师通过暹罗架构从不同的模态中提取互补的视觉特征，然后无参数地融合这些来自多个级别的信息作为蒸馏的目标。对于学生，它从正常训练数据的教师表示中学习模态相关的先验，并在它们之间进行交互，形成多模态表示以进行目标重构。大量的实验表明，我们的MMRD在MVTec-3D AD和Eyecandies基准上的异常检测和定位方面都超过了最近的最先进的方法。代码将在接受后提供。

06 面向主动域适应分割的密度感知core-set算法

Density Matters: Improved Core-set for Active Domain Adaptive Segmentation

Shizhan Liu*, Zhengkai Jiang*, Yuxi Li, Jinlong Peng, Yabiao Wang, Weiyao Lin

主动域适应已经成为在语义分割中平衡昂贵的标注成本和模型性能的解决方法。然而，现有的工作通常忽视了选定样本与其在特征空间中的局部上下文之间的关联，这导致了对标注预算的低效使用。在这项工作中，我们重新审视了经典core-set方法的理论界限，并确定模型性能与选定样本周围的局部样本分布密切相关。为了有效地估计局部样本的密度，我们引入了一个带有动态掩蔽卷积的局部密度估计器，并开发了一个密度感知贪婪算法来优化界限。大量的实验证明了我们方法的优越性。此外，即使只有很少的标签，我们的方案也能达到与完全监督情况下相当的结果。

论文链接：

https://arxiv.org/pdf/2312.09595.pdf

07 图像匹配和目标检测协作框架

MatchDet: A Collaborative Framework for Image Matching and Object Detection

Jinxiang Lai*, Wenlong Wu*, Bin-Bin Gao, Jun Liu, Jiawei Zhan, Congchong Nie, Yi Zeng, Chengjie Wang

图像匹配和目标检测是两个基础且具有挑战性的任务，而许多相关应用将它们视为两个独立的任务（任务独立）。本文提出了一种名为MatchDet的协作框架（任务协作），可实现图像匹配和目标检测两个任务间的协作。为了实现这两个任务的协作学习，我们提出了三个新模块，包括用于检测器的空间注意力模块（WSAM），用于匹配器的权重注意力模块（WAM）和框过滤器。具体而言，WSAM突出显示目标图像的前景区域，以使后续的检测器受益；WAM增强了图像对的前景区域之间的相关性，以确保高质量的匹配；而框过滤器则减轻了错误匹配的影响。我们在Warp-COCO和miniScanNet这两个新基准数据集上进行评估。实验结果表明，我们的方法是有效的，并取得了有竞争力的性能提升。

论文链接：

https://arxiv.org/pdf/2312.10983.pdf

08 细粒度区域感知图像和谐化算法

FRIH: Fine-grained Region-aware Image Harmonization

Jinlong Peng, Zekun Luo, Liang Liu, Boshen Zhang

图像和谐化旨在为复合图像生成更真实的前景和背景外观。所有现有的方法都对整个前景执行相同的和谐化过程。然而，嵌入的前景通常包含不同的外观模式。现有的解决方案忽略了每个颜色块的差异，并丢失了一些特定的细节。因此，我们提出了一种新颖的全局-局部两阶段框架，用于细粒度区域感知图像和谐化（FRIH）。在第一阶段，整个输入前景掩码用于进行全局粗粒度的和谐化。在第二阶段，我们自适应地将输入前景掩码聚类为几个子掩码。每个子掩码和粗调整后的图像分别连接，并输入到一个轻量级级联模块中，以改进全局融合结果。此外，我们还设计了一个融合预测模块，综合利用不同程度的融合结果生成最终结果。我们的FRIH在iHarmony4数据集上通过轻量级的模型取得了有竞争性的性能。

论文链接：

https://arxiv.org/pdf/2205.06448.pdf

09 视觉幻觉提升多模态语音识别效果

Visual Hallucination Elevates Speech Recognition

Fang Zhang (USTC), Yongxin Zhu(USTC), Xiangxiang Wang, Huang Chen, Xing Sun, Linli Xu(USTC)

由于噪声对传统音频语音识别的影响，我们提出了一种结合音频和视觉信号的方法。然而，实际应用中并不总是能获取到配对的视频，这产生了视觉缺失模态的问题。为解决这一问题，我们提出了一种基于离散特征的视觉生成模型，该模型在训练中利用音频和视觉的语义对应关系，并在推理中生成视觉幻觉以代替真实视频。我们的方法在两个公开数据集上的实验表明，相比当前最先进的音频单独基线，我们的方法在词错误率上实现了显著的53%的相对降低，同时在不使用视频输入的音频-视觉设置下保持了相当的结果。

10 学习任务感知的语言-图像表征用于类增量目标检测

Learning Task-Aware Language-Image Representation for Class-Incremental Object Detection

Hongquan Zhang*, Bin-Bin Gao*, Yi Zeng, Xudong Tian (ECNU), Xin Tan (ECNU), Zhizhong Zhang (ECNU), Yanyun Qu (XMU), Jun Liu, Yuan Xie (ECNU)

类增量物体检测要求目标检测器能够持续适应新任务的同时不能忘记已学习的旧任务，在实际应用中是迫切需要的能力，其主要挑战在于检测器对已学习的旧任务的灾难性遗忘。许多基于蒸馏和回放的方法已被提出来缓解这个问题。然而，它们通常在纯视觉架构上进行学习，忽视了文本线索的强大表征能力，这在某种程度上限制了它们的性能。在本文中，我们提出了任务感知的语言-图像表征来缓解灾难性遗忘，为基于语言-图像的类增量目标检测引入了新的范式。首先，我们展示了语言-图像检测器在缓解灾难性遗忘方面的显著优势。其次，我们提出了一种学习任务感知的语言-图像表征方法，克服了直接利用语言-图像检测器进行类增量目标检测的缺点。具体来说，通过在训练阶段采用特征隔离方式学习不同任务的语言-图像表征，而在推理阶段使用由任务特定语言-图像表征来对齐预测得分。提出的方法使的语言-图像检测器可以更实用于类增量目标检测任务。在COCO 2017和Pascal VOC 2007上的大量实验证明在各种类增量目标检测的设置下，提出的方法都能达到当前最好的结果。

11 弱半监督医学图像分割

Combinatorial CNN-Transformer Learning with Manifold Constraints for Semi-Supervised Medical Image Segmentation

Huimin Huang, Yawen Huang, Shiao Xie, Lanfen Lin, Ruofeng Tong, Yen-Wei Chen, Yuexiang Li, Yefeng Zheng

半监督学习（Semi-supervised Learning，SSL）作为主导方法之一，旨在利用未标记的数据来解决监督学习中的标注困境，这在医学图像分割领域引起了广泛关注。大多数现有的方法通过卷积神经网络（CNN）使用单一网络，并通过对输入或模型应用小的扰动来强制保持预测的一致性。然而，这种学习范式的缺点在于：（1）基于CNN的模型对全局学习施加了严重的限制；（2）丰富和多样的类级分布被抑制。在本文中，我们提出了一种新的CNN-Transformer学习框架，用于半监督医学图像分割的流形空间。首先，在学生内部级别，我们提出了一种新颖的类别一致性损失，以促进目标特征表示的判别性和紧凑性学习。然后，在学生之间的级别上，我们使用基于原型的最优传输方法对齐CNN和Transformer特征。大量实验表明，我们的方法在三个公共医学图像分割基准测试中优于先前的最先进方法。

12 使用模态特异编码器和多模态锚点的个性化联邦学习用于脑肿瘤分割

Federated Modality-specific Encoders and Multimodal Anchors for Personalized Brain Tumor Segmentation

Qian Dai (厦门大学), Dong Wei, Hong Liu , Jinghan Sun, Liansheng Wang (厦门大学), Yefeng Zheng

现有的医学图像分析联邦学习（FL）方法大多只考虑了模态内异质性，限制了其在多模态成像应用中的适用性。实际中，有些FL参与者只拥有完整成像模态的子集，这给在所有参与者数据上有效训练全局模型带来了跨模态异质性的挑战。此外，在这种情况下，每个参与者都希望从FL中获得适合其本地数据特性的个性化模型。在这项工作中，我们提出了一种新的FL框架，其中包括联邦模态特定编码器和多模态锚点（FedMEMA），以同时解决这两个问题。首先，FedMEMA为每种模态使用独立的编码器来解决跨模态异质性问题。同时，虽然编码器是由参与者共享的，但解码器是个性化的，以满足个体需求。具体而言，具有完整模态数据的服务器使用融合解码器来融合所有模态特异的编码器的表示，并通过反向传播来优化编码器之间的模态关系。同时，从融合的多模态表示中提取多个锚点，并将其与编码器参数一起分发给客户端。另一方面，具有不完整模态的客户端通过缩放点积交叉注意力机制将其缺失模态的表示校准到全局完整模态锚点，弥补了由于缺失模态而导致的信息损失，同时调整了本地模态的表示。FedMEMA在BraTS 2020多模态脑肿瘤分割基准数据集上进行验证。结果表明，它在多模态和个性化FL方面优于各种最新方法，并且其新颖设计是有效的。

13 使用语义锚点进行约束的表征学习

Beyond Prototypes: Semantic Anchor Regularization for Better Representation Learning

Yanqi Ge*, Qiang Nie*, Ye Huang, Yong Liu, Feng Zheng, Chengjie Wang, Wen Li, Lixin Duan

表示学习的最终目标之一是在类内实现紧凑性，并在类间实现良好的可分性。针对这一目标，已经提出了许多基于度量和原型的杰出方法遵循期望最大化范式。然而，它们不可避免地会引入偏差到学习过程中，特别是在长尾分布的训练数据中。在本文中，我们揭示了类原型不一定需要从训练特征中派生，并提出了一种新的视角，使用预定义的类锚点作为特征中心来单向引导特征学习。然而，预定义的锚点可能与像素特征存在较大的语义距离，这使得它们无法直接应用。为了解决这个问题并生成与特征学习无关的特征中心，我们提出了一种简单而有效的语义锚点正则化（SAR）。SAR通过在训练过程中使用分类器感知的辅助交叉熵损失来确保语义空间中语义锚点的类间可分性，并与特征学习解耦。通过将学习到的特征拉向这些语义锚点，可以获得几个优势：1）类内紧凑性和自然的类间可分性，2）可以避免特征学习引入的偏差或错误，3）对长尾问题具有鲁棒性。所提出的SAR可以以即插即用的方式应用于现有模型中。大量实验证明，SAR在语义分割等视觉任务中的性能甚至优于复杂的原型方法。

14 无监督持续异常检测

Unsupervised Continual Anomaly Detection with Contrastively-learned Prompt

Jiaqi Liu*, Kai Wu*, Qiang Nie, Ying Chen, Bin-Bin Gao, Yong Liu,Jinbao Wang, Chengjie Wang, Feng Zheng

在工业制造中，具有增量训练的无监督异常检测（UAD）至关重要，因为无法获得足够的标记数据来应对不可预测的缺陷。然而，当前的持续学习（CL）方法主要依赖于监督注释，而在UAD中的应用受限于缺乏监督。目前的UAD方法会按顺序为不同的类别训练单独的模型，导致灾难性遗忘和沉重的计算负担。为了解决这个问题，我们引入了一种名为UCAD的新型无监督持续异常检测框架，通过对比学习的提示赋予UAD持续学习能力。在提出的UCAD中，我们设计了一个持续提示模块（CPM），利用简洁的键-提示-知识存储库来引导任务无关的“异常”模型预测，使用任务特定的“正常”知识。此外，我们设计了基于结构的对比学习（SCL），并结合分割任意模型（SAM）来改进提示学习和异常分割结果。具体而言，通过将SAM的掩码视为结构，我们将同一掩码内的特征拉近，并将其他特征推开，以获得通用的特征表示。我们进行了全面的实验，并在无监督持续异常检测和分割方面设定了基准，证明我们的方法在异常检测方面明显优于其他方法，即使使用了回放训练。

15 SoftCLIP: 更柔和的跨模态对齐使CLIP更强大

SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger

Yuting Gao*, Jinfeng Liu*, Zihan Xu*, Tong Wu, Enwei Zhang, Wei Liu, Jie Yang, Ke Li, Xing Sun

在过去的两年里，视觉-语言预训练在多个下游任务中取得了显著的成功。然而，获取高质量的图像-文本对，仍然是一项具有挑战性的任务，且常用数据集中存在噪声。为解决这个问题，我们提出了一种名为SoftCLIP的新方法，通过引入细粒度模态内自相似性生成软化目标，放宽了严格的一对一约束。软标签可以使两对图文对之间存在一些局部相似性，并在两种模态之间建立多对多的关系。此外，由于在软化标签中，正样本仍然占有主导地位，我们将正负样本进行了解耦，以进一步提升跨模态学习中的负样本关系对齐。大量的实验证明了SoftCLIP的有效性，特别是在ImageNet零样本分类任务中，使用CC3M/CC12M作为预训练数据集，SoftCLIP相比于CLIP基线，带来了6.8%/7.2%的top-1准确率提升。

论文链接：

https://arxiv.org/pdf/2303.17561.pdf

16 COOPER：面向复杂对话目标的专业代理协调方法

COOPER: Coordinating Specialized Agents towards a Complex Dialogue Goal

Yi Cheng (The Hong Kong Polytechnic University), Wenge Liu (Baidu), JianWang (The Hong Kong Polytechnic University), Chak Tou Leong (The Hong Kong Polytechnic University),Yi Ouyang, Wenjie Li (The Hong Kong Polytechnic University), Xian Wu, Yefeng Zheng

近年来，人们对探索具有更复杂目标的对话越来越感兴趣，例如谈判、说服和情绪支持，这些都超越了传统的服务型对话系统。除了需要更复杂的策略性推理和沟通技巧外，这些任务的一个重大挑战在于，它们的目标实现难以以可量化的方式客观衡量，这使得现有的研究难以直接优化对话过程以实现这些目标。在我们的工作中，我们强调复杂对话目标的多面性，并认为通过全面考虑并共同推动其不同方面，更有可能实现这些目标。为此，我们提出了一个新的对话框架，COOPER，它协调多个专门的代理，每个代理分别致力于特定的对话目标方面，以接近复杂的目标。通过这种分而治之的方式，我们使复杂的对话目标更易于接近，并通过各个代理的协作引发更大的智能。在说服和情绪支持对话的实验中，我们的方法对比基线能达到更好的性能。

17 基于域幻化更新的多域人脸活体检测

Domain-Hallucinated Updating for Multi-Domain Face Anti-spoofing

Chengyang Hu (Shanghai Jiao Tong University), Ke-Yue Zhang, Taiping Yao, Shice Liu, Shouhong Ding, Xin Tan (East China Normal University), Lizhuang Ma (Shanghai Jiao Tong University)

多域人脸活体检测 (MD-FAS) 旨在仅使用新域数据更新新域的模型，同时确保不会忘记从旧域获得的知识。现有方法利用模型的特征来表示旧域知识或将不同的域映射到单独的特征空间中以防止遗忘。然而，由于域差距的存在，新数据的特征不如之前数据的准确。此外，如果没有先前数据提供监督，分离的特征空间可能会在新域上更新时被破坏，从而导致灾难性遗忘。受到缺乏旧域数据所带来的挑战的启发，我们从一个新的角度解决了这个问题，即幻化出旧域数据来更新 FAS 模型。为此，我们提出了一种新颖的域幻化更新（DHU）框架来促进数据的幻化。具体地，域信息浏览器学习旧域的代表性域信息。然后，域信息幻化模块将新域数据幻化成伪旧域数据。此外，提出了幻化特征联合学习模块，通过双级别不对称地对齐真实样本的新域数据和伪旧域数据，以学习更通用的特征，从而促进所有域的结果。我们的实验结果和可视化结果表明，所提出的方法在有效性方面优于最先进的竞争对手。

18 基于预训练在线对比学习的保险欺诈检测方法

Pre-trained Online Contrastive Learning for Insurance Fraud Detection

Rui Zhang (Tongji University, Shanghai AI Lab), Dawei Cheng (Tongji University, Shanghai AI Lab), Jie Yang (Tongji University), Yi Ouyang, Xian Wu, Yefeng Zheng, Changjun Jiang (Tongji University, Shanghai AI Lab)

医疗保险反欺诈是医疗行业领域的一个重要研究问题。现有的欺诈检测模型主要关注离线学习场景。然而，欺诈模式不断演变，使得基于过去数据训练的模型难以检测新出现的欺诈模式，这给医疗欺诈检测带来了严重的挑战。此外，当前的增量学习模型主要用于解决灾难性遗忘问题，但在欺诈检测中的表现往往不尽如人意。为了解决这一挑战，本文提出了一种创新的在线学习方法，用于医疗保险欺诈检测。该方法将对比学习预训练与在线更新策略相结合。在预训练阶段，我们利用对比学习预训练在历史数据上进行无监督学习，实现深度特征学习并获得丰富的风险表示。在在线学习阶段，我们采用时间记忆感知突触在线更新策略，使模型能够根据不断涌现的新数据进行增量学习和优化。这确保了模型及时适应欺诈模式，减少了对过去知识的遗忘。我们的模型在真实世界的保险欺诈数据集上进行了大量的实验和评估。结果表明，与现有的基线方法相比，我们的模型在准确性方面具有显著优势，同时还表现出较低的运行时间和空间消耗。

19 VMT-Adapter: 面向多任务密集场景理解的高效参数迁移学习

VMT-Adapter: Parameter-Efficient Transfer Learning for Multi-Task Dense Scene Understanding

Yi Xin, Junlong Du, Qiang Wang, Zhiwen Lin, Ke Yan

近期，大规模预训练模型在多种视觉下游任务中取得了显著提升，然而对预训练模型进行全量参数微调提升了模型的计算和存储成本。在自然语言处理领域的启发下，参数高效微调方法（PETL）在视觉任务中得到成功的应用，但现有技术主要聚焦于单任务的适配，如何更好地将参数高效微调方法应用于视觉多任务学习中仍是一个挑战。本文提出了一种“once-for-all”的视觉多任务适配方法（VMT-Adapter），具有极高的训练和推理效率，在任务数上具有O(1)的时间复杂度，这使得VMT-Adapter可以利用极少的参数处理几乎任意数量的任务。VMT-Adapter不仅通过参数共享实现了跨任务信息交互，同时还为每个任务单独设置了知识提取模块来保留任务的特定知识。本文在包含4个密集场景理解任务的数据集上验证了方法的有效性：VMT-Adapter仅利用预训练模型1%的参数量，便可以取得3.96％的显著提升。

20 MmAP: 面向跨域多任务学习的多模态对齐提示

MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-Task Learning

Yi Xin, Junlong Du, Qiang Wang, Ke Yan, Shouhong Ding

多任务学习（MTL）旨在同时训练多个相关任务，并提高各个子任务的效果。面向多任务学习的网络结构通常会为每一个任务设置独立的解码器（decoder）结构，因此，解码网络的计算复杂度会随着任务数量的增加而线性增加。为了解决这个问题，本文将图文预训练模型CLIP引入跨域多任务学习中，利用提示学习实现了一种“decoder-free”的多任务学习框架。本文认为，尽管针对CLIP的提示学习已经在多个视觉任务中表现出优越的性能，但是现有方法仅对CLIP的单一模态（文本或视觉）进行微调，破坏了CLIP的模态对齐。因此，本文首先提出了一种针对CLIP的多模态对齐提示（MmAP），以实现对文本和视觉模态的同时调整，保持CLIP的模态对齐特性。在MmAP基础上，本文设计了一种新颖的多任务提示学习框架。一方面，我们利用梯度驱动的任务分组方法，实现高相似性任务之间互补性的最大化；另一方面，我们为每个任务分配特定的MmAP，以保留任务的特有信息。在两个大型多任务学习数据集上，相比于全量参数微调，本文提出的方法在仅利用约0.09％的可训练参数的情况下，实现了显著的性能提升。

21 PCE-Palm：基于手掌折痕能量的两阶段拟真掌纹生成

PCE-Palm: Palm Crease Energy based Two-stage Realistic Pseudo-palmprint Generation

Jianlong Jin(HUT/Tencent), Lei Shen, Ruixin Zhang, Jingyun Zhang, Ge Jin, Chenglong Zhao, Shouhong Ding, Yang Zhao(HUT), Wei Jia(HUT)

*本文由腾讯优图实验室、腾讯微信支付33号实验室、合肥工业大学共同完成

大规模数据的缺乏严重阻碍了掌纹识别的发展。近期方法提出基于贝塞尔曲线生成大规模拟真掌纹来解决这个问题。然而，贝塞尔曲线和真实掌纹之间的显着差异限制了它们的有效性。在本文中，我们将贝塞尔曲线到真实掌纹的差异分为折痕差异和纹理差异，通过分拆降低生成难度。具体来说，我们引入了一种新的手掌折痕能量（PCE）域作为从贝塞尔曲线到真实掌纹的桥梁，并提出了一个两阶段生成模型。第一阶段从贝塞尔曲线生成 PCE 图像（拟真折痕），第二阶段以 PCE 图像作为输入输出真实的掌纹（拟真纹理）。此外，我们还设计了一个轻量级的即插即用线路特征增强块，以方便域转移并提高识别性能。大量的实验结果表明，我们提出的方法超越了最先进的方法。在极少的数据设置下（如 40 个 ID，仅占总训练集的 2.5%），在TAR@FAR=1e-6条件下，我们的方法相对RPG-Palm 提升 29%，相对100%训练集的 ArcFace 提升6%。

22 HDMixer：基于可扩展Patch与层级依赖的多元时间序列预测

HDMixer: Hierarchical Dependency with Extendable Patch for Multivariate Time Series Forecasting

Qihe Huang(USTC/Tencent), Lei Shen, Ruixin Zhang, Jiahuan Cheng, Shouhong Ding, Zhengyang Zhou (USTC) , Yang Wang (USTC)

*本文由腾讯优图实验室、中国科学技术大学共同完成

多元时间序列（MTS）预测已广泛应用于各种场景。最近，一些方法采用patch来增强局部语义并提高模型性能。然而，长度固定的patch很容易丢失时间边界信息，例如完整的峰值和周期。此外，现有方法主要侧重于对patch之间的长期依赖性进行建模，而很少关注其他维度（例如patch内的短期依赖性以及跨变量patch之间的复杂交互）。为了解决这些挑战，我们提出了一种纯基于 MLP 的 HDMixer，旨在通过有效地建模分层交互来获取具有更丰富语义信息的patch。具体来说，我们设计了一个针对 MTS 的长度可扩展patch（LEP），它丰富了patch的边界信息并减轻了系列中的语义不连贯。随后，我们设计了一个基于纯 MLP 的分层依赖关系展示器(HDE)。该展示器可以有效地模拟patch内的短期依赖关系、patch之间的长期依赖关系以及patch之间的复杂交互。对 9 个真实世界数据集的广泛实验证明了我们方法的优越性。

23 弱监督开放词汇目标检测

Weakly Supervised Open-Vocabulary Object Detection

Jianghang Lin ( Xiamen University )，Yunhang Shen ( Tencent )，Bingquan Wang ( Xiamen University )，Shaohui Lin ( East China Normal University ) ，Ke Li ( Tencent )，Liujuan Cao ( Xiamen University )

尽管弱监督目标检测（WSOD）是避免使用实例级别标注的有前途的方法，但其能力仅限于单个训练数据集中的封闭集类别。在本文中，我们提出了一种新颖的弱监督开放词汇目标检测框架，即WSOVOD，将传统的WSOD扩展为检测新概念，并利用只有图像级别注释的不同数据集。为了实现这一目标，我们探索了三种关键策略，包括数据集级别的特征适应，图像级别的显著目标定位，以及区域级别的视觉语言对齐。首先，我们进行数据感知特征提取，以产生输入条件的系数，该系数被利用到数据集属性原型中以识别数据集偏差并帮助实现跨数据集泛化。其次，我们提出了一个定制的位置导向的弱监督候选区域网络，以利用来自类别无关的分割任何模型的语义布局来区分目标边界。最后，我们引入了一种候选区域概念同步的多实例网络，即目标挖掘和与视觉语义对齐的细化，以发现与概念文本嵌入匹配的目标。在Pascal VOC和MS COCO上的大量实验表明，所提出的WSOVOD在封闭集目标定位和检测任务中都比之前的WSOD方法更好，并取得了新的最先进水平结果。同时，WSOVOD实现了弱监督下的跨数据集和开放词汇学习，并且取得了与全监督开放词汇目标检测（FSOVOD）相当甚至更好的效果。

论文链接：

https://arxiv.org/abs/2312.12437

24 SPD-DDPM：对称正定空间中的去噪扩散概率模型

SPD-DDPM: Denoising Diffusion Probabilistic Models in the Symmetric Positive Definite Space

Yunchen Li ( East China Normal University )，Zhou Yu ( School of Statistics, East China Normal University )，Gaoqi He ( East China Normal University ) ，Yunhang Shen ( Tencent )，Ke Li ( Tencent ) ，Xing Sun ( Tencent )，Shaohui Lin ( East China Normal University )

对称正定（SPD）矩阵在统计和机器学习领域（如fMRI分析和交通预测）中已经显示出重要的价值和应用。之前的SPD矩阵工作主要集中在判别模型上，其中预测是对E(X|y)的直接进行，其中y是一个向量，X是一个SPD矩阵。然而，这些方法在大规模数据处理中具有挑战性，因为它们需要访问和处理整个数据。在本文中，受到去噪扩散概率模型（DDPM）的启发，我们通过在SPD空间中引入高斯分布来估计E(X|y)，从而提出了一种新的生成模型，称为SPD-DDPM。此外，我们的模型能够在不需要给定的情况下无条件且灵活地估计p(X)。一方面，该模型有条件地学习p(X|y)，并利用样本均值获得E(X|y)作为预测。另一方面，该模型无条件地学习数据概率分布p(X)并生成符合该分布的样本。此外，我们还提出了一种新的SPD网络，它比之前的网络更深，并且允许包含条件因素。在玩具数据和真实出租车数据上的实验结果表明，我们的模型有效地拟合了无条件以及有条件的数据分布，并且提供了准确的预测。

论文链接：

https://arxiv.org/abs/2312.08200

25 通过知识蒸馏和增量学习进行半监督的盲图像质量评估

Semi-Supervised Blind Image Quality Assessment through Knowledge Distillation and Incremental Learning

Wensheng Pan ( Xiamen University )，Timin Gao ( Xiamen University ) ，Yan Zhang ( Xiamen University )，Xiawu Zheng ( Peng Cheng Laboratory )，Yunhang Shen ( Tencent ) ，Ke Li ( Tencent ) ，Runze Hu ( Beijing Institute of Technology )，Yutao Liu ( Ocean University of China ) ，Pingyang Dai ( Xiamen University )

盲图像质量评估（BIQA）旨在复制人类对图像失真的评估。因此，它对标注数据的需求很大，而在实践中远远不够。一些研究人员利用无监督方法来避免这个问题，但很难模拟人类主观系统。为此，我们提出了一个统一的半监督增量学习框架来解决上述问题。具体来说，当训练数据不足时，需要半监督学习来推断大量无标签数据。同时，多次半监督学习很容易导致灾难性遗忘问题，因此需要增量学习。更具体地说，我们采用知识蒸馏为无标签数据提供伪标签，以保留分析能力，从而实现半监督学习。同时，我们利用增量学习在多次半监督学习中选择代表性示例来修正先前数据，从而确保我们的模型不会退化。实验结果表明，所提出的算法在多个基准数据集上实现了最先进的性能。在经过TID2013数据集的训练后，所提出的方法可以直接转移到另一个数据集，与监督方法的忽略性能下降（-0.013）相比，同时优于无监督方法。总的来说，我们的方法表明了它在解决实际生产过程挑战方面的潜力。

26 基于去相关特征查询的域泛化医学图像分割方法

Learning Generalized Medical Image Segmentation from Decoupled Feature Queries

Qi Bi ( Tencent/Wuhan University )，Jingjun Yi ( Tencent/Wuhan University )，Hao Zheng ( Tencent )，Wei Ji ( University of Alberta )，Yawen Huang ( Tencent )，Yuexiang Li ( Guangxi Medical University )，Yefeng Zheng ( Tencent )

域泛化医学图像分割场景指模型在多个源域上训练，并在未见过的目标域上测试其泛化能力。由于收集自不同医院的图像可能使用不同的成像设备和扫描参数，不同中心的数据分布会有显著区别。理想的高泛化性特征在同一通道内对跨域图像具有相似的模式响应。然而，在应对显著的分布差异时，网络倾向于通过多个通道来捕获各源域图像上的同一模式，并允许同一通道中在跨域图像上表现出不同的激活模式。对此，我们提出以最小化跨域医学图像之间的通道相关性来消除特征冗余并最大化每个通道的表达能力。首先，我们提出了一种新的白化变换，更加高效地完成通道间的解耦。由于特征去相关并不能保证来自不同域的医学图像在同一通道内具有相似的激活模式，我们进一步基于自注意机制引入一种隐藏的约束。我们将解耦的深层特征作为查询，去相关的浅层特征作为键和值。解耦的深层特征与浅层特征之间的内在依赖要求跨域表达具有一致性，提升了模型的域泛化分割能力。

27 通过输入-输出协同蒸馏的联邦学习

Federated Learning via Input-Output Collaborative Distillation

Xuan Gong ( Harvard Medical School ) ，Shanglin Li ( Beihang University ) ，Yuxiang Bao ( Beihang University ) ，Barry Yao ( Virginia Tech ) ，Yawen Huang ( Tencent ) ，Ziyan Wu ( United Imaging Intelligence ) ，Baochang Zhang ( Beihang University ) ，Yefeng Zheng ( Tencent ) ，David Doermann ( University at Buffalo )

联邦学习（FL）是一种机器学习范式，其中分布式的本地节点协同训练一个中心模型，而无需共享各自持有的私有数据。现有的FL方法要么迭代共享本地模型参数，要么部署共同蒸馏。然而，前者极易导致私有数据泄露，后者的设计依赖于任务相关真实数据的前提条件。相反，我们提出了一个基于本地到中心协同蒸馏的无数据FL框架，直接利用输入和输出空间。我们的设计消除了递归本地参数交换或辅助任务相关数据传递知识的任何需求，从而直接将隐私控制权交给本地用户。特别是，为了应对本地之间固有的数据异质性，我们的技术学会在每个本地模型产生一致而独特结果的输入上进行蒸馏，以代表每个专业知识。我们通过在图像分类、分割和重建任务上的大量实验，证明了我们提出的FL框架在自然和医学图像的各种真实世界异质联邦学习设置下，实现了最先进的隐私-效用权衡。

#大模型の微调经验和认知

这里将分享作者在大模型微调过程中的经验和认知。

关于continue

1.pre-train大模型的知识来自于pt阶段，如果你想引入一些新的知识，那CPT是一个不错的选择。

2.但你首先要确保你有足够大量的数据集，至少有几B的token；

3.否则几十条数据的情况我更推荐模型编辑更建议全量微调。

4.不确定lora是不是一个好的选择，后面会展开讲。

5.通常CPT开始的阶段会出现一段时间的loss上升，随后慢慢收敛，所以学习率是一个很重要的参数，这很容易理解：如果lr过大，那loss值收敛会更困难，旧能力损失的会更大；如果lr过小，那可能难以学到新知识。

6.当你数据集比较小（例如100B以下？），那建议使用较小的学习率。例如可以使用pre-train阶段最大学习率的10%。通常7B模型pre-train阶段的学习率大概是3e-4，所以我们可以选择3e-5。

7.记得根据你的batch size做相应缩放。通常lr缩放倍数为batch size倍数的开方。例如batch size增大4倍，学习率对应扩大2倍即可。

8.warmup_ratio也很重要。通常LLM训练的warmup_ratio是epoch * 1%左右。例如pre-train阶段一般只训一个epoch，则ratio是0.01；

9.SFT通常3个epoch，ratio对应为0.03但是如果做CPT，建议warmup_ratio调大一点。如果你的数据集很大，有几百b，那warmup其实不影响最重的模型效果。但通常我们的数据集不会有那么大，所以更小的ratio可以让模型“过渡”得更平滑。

10.我甚至试过3个epoch的训练(SFT)，第一个epoch全部用来warmup，结果是work的。这里参考了Qwen-7b的技术报告。

11.所以学习率和warmup_ratio是两个相辅相成的概念，二者通常是成正比的关系。或者说如果你正在用一个较大的学习率，那你或许可以同时尝试增加warmup来防止模型“烂掉”。

12.这几点不只适用于CPT，对一些特殊情况下的SFT阶段同样适用。

13.这里吐槽一下Trainer，到现在都不支持最小lr参数。

关于SFT

1.请勿迷信3个epoch的训练，实测1个epoch就能对话。当然，更多的epoch确实会让模型的评测效果更佳。

2.但如果你资源严重受限，跑一轮也能用～尤其当你从一个SFT模型启动（如chatGLM）时，尝试小点的epoch，防止灾难性遗忘。

3.如果数据量比较小，如只有1k，可以尝试更多的epoch。无他，人为过拟合而已。

关于continue

1.pre-train+SFT首先提出一个问题，假设你想做一个领域模型，并且你的领域模型和通用chatBot的输出内容、格式都区别很大；此外你还期望要通过CPT来注入一定的知识，那可用的技术路线有哪些呢？

从pre-train模型开始SFT训练，先做CPT，SFT数据使用你的领域数据
❌会得到一个只能解领域问题的模型，丢失掉通用对话能力，如果完全不考虑通用对话能力可以，否则不推荐
从pre-train模型开始SFT训练，先做CPT，SFT数据选用通用SFT数据+领域SFT数据
⭕ 如果你的领域数据和通用能力很接近，如医疗问答，那这是一个非常不错的技术路线，推荐
对于2，如果你的新任务和通用任务差别很大，甚至输出格式都完全不一样甚至冲突
❌虽然可行，但直觉上一些通用SFT数据的answer会对你的任务目标造成一定程度的负向影响
从pre-train模型开始SFT训练，先做CPT，再做通用SFT，再做领域SFT
❌这会导致你的任务目标（最后阶段）和你的知识注入阶段（CPT阶段）中间存在一个阶段的gap，可能不是最佳路线
从sft模型开始训练，先做CPT，再做领域SFT
❌与4同理，任务目标（最后阶段）和通用对话能力阶段隔了一个阶段，仿佛也不够优雅

2.思来想去，好像所有现有常见的技术路线都不太work～所以可能要试一些非常规的方法。

3.一个很有意思的问题是，过去我们都被GPT论文的三个阶段束缚，老老实实串行跑三个阶段：PT->SFT>RLHF

4.但是越来越多人尝试SFT+DPO混合训练，看上去也是work的。

5.同理，我相信很多国内大模型的大厂，或多或少可能都在PT模型里偷偷掺了一些SFT数据，这会让模型的性能有一定程度的提升。

6.很久以前也有人在SFT阶段掺杂一些PT数据，来防止灾难性遗忘。

7.此外，不管是SFT还是PT，任务目标其实都一样，都是基于teacher forcing的自回归任务，next token predict而已，唯一的不同只是数据格式不一样。

8.那么我们可不可以认为，其实这不同阶段的区别其实没有那么大？是不是可以CPT+SFT混合训练，不再区分阶段。

9.例如我们可以在CPT阶段加入大量SFT对话数据（同样mask掉question），这个SFT数据甚至可以是海量的、未经清洗的、低质量的数据，仅训练1个epoch即可；接下来我们使用通用SFT数据（少而精的）+领域SFT数据，混合训练1个epoch；最后1个epoch我们只用领域数据做微调。

10.可以根据数据集大小、重要程度，修改各阶段epoch轮次，或在某个阶段内扩大某数据集的倍数。

11.至此，CPT数据共训练1个epoch，通用SFT数据2个，领域数据2个。

12.个人使用这种技术路线，感觉还是比较work的。由于CPT成本太大，未设置更多的消融实验。那除此以外是否有其他技术路线呢？答案或许是Lora？

关于Lora

1.个人对lora使用得不多，之前仅仅是了解原理+会用，没有深入探索过一些参数。最近尝试理解一下。

2.lora真的没省多少GPU也没省多少训练时长，所以我真的不太爱用它。（包大人备注：其实是很省显存的，但不太省训练时长）

3.lora更像是一个能力插件，可以帮助模型学到一些新的输出格式/领域话题，但对新知识或新能力的注入可能不太擅长。

4.对于能力注入，当前的认知是：pre-train > full SFT > lora。

5.所以用lora来进行pretrain可能不是一个最优解，还是更推荐用全参数。

6.但是对于领域任务，lora好像天然适合？

7.第2、3点没有经过实验论证，近期会跑个实验，有结论会做补充。

8.lora_rank是一个很重要的参数，它影响旁路矩阵的大小。

9.如果你的数据量比较小，那推荐用比较小的rank就可以了，我记得原论文里8和32区别不大（懒得翻论文了，全凭记忆，如果有错误请指正）

10.如果你数据量较大，那建议用更大的rank，来得到一个更大的旁路矩阵，它显然可以记住更多的东西。

11.与此同时，除了q_proj,v_proj，强烈建议再试一下把所有的线性层都上lora，如k_proj, up_proj, down_proj这些。

12.此外lora_alpha也很重要，它通常和lora_rank是正比关系，表示一个缩放系数。alpha越大，表示新建的旁路矩阵影响力越大、新数据学得越“猛”；alpha越小，表示原始模型参数对结果的影响力越大。

13.很多人喜欢设置alpha是rank的2倍，其实可以二者1: 1跑个baseline看看效果。

网友补充：

1、SFT和pretrain的任务在有些大模型例如ChatGLM是不一样的，对于把pretrain放到SFT来保持所谓的防止遗忘并没有感觉到明显差异。

2、对于小数据集，设置一个好的prefix，在很多epoch（大于100）的情况仍然保持不错的提升。

3、lora对显存的节约是很明显的，只是很多代码类似zero的思想并不契合lora（把模型切分放到最后，认为是最不占用显存的，然而lora相反）。

4、lora的效果和全量在我做的实验下是有明显差距的（例如在某些指标上经常>4%绝对值的差距），和论文中的理想情况不同，并且lora比较吃分层学习率，程度和crf比较接近了

5、lora的秩的值设置在1-16上还是存在不小的区别，从16到128上经常只是一些收敛上的差异，例如128可能n个epoch收敛到x，16可能要2n，但并不绝对，而且r大时间久，一般16-32是比较推荐的

6、DPO和RLHF根据个人理解，对chosen-rejected数据的质量需求是不同的，选择RLHF仍然是更好的选择，对于显存不够的部分人来说，可以例如lora，将actor和ref共用一个，critic和reward共用一个，把显存从4x降低为2x。宁可这样也尽量把显存尽可能用来提高critic模型的参数量

网友：暂时先写这么多，可能过俩月再看又是一篇漏洞百出的想法，

但总是要在摸索中前进吧～

#InfoBatch

研究者从数据迭代这个角度切入进行了研究。对此，作者提出了InfoBatch框架，根据网络对样本的拟合情况进行动态剪枝采样的方法，并利用重缩放（rescaling）来维持剪枝后的梯度更新（Gradient Update）期望，以此在性能无损的情况下提高训练效率，加快训练速度。无损数据集动态剪枝加速

本文介绍来自NUS尤洋团队的最新科研成果 - InfoBatch。这是首篇关于无损数据剪枝加速的工作，覆盖分类、分割、检测、图片生成、LLM指令微调等任务。作为一个即插即用且与架构无关的框架，在实际应用中，InfoBatch 可以无损地节省 40% 的总开销（时间和计算）。

随着深度学习的网络参数量和数据集规模增长，算力需求日益增加，如何节省训练成本正在成为逐渐凸显的需求。现有的数据集压缩方法大多开销较高，且难以在达到无损的情况下获得可观的节省率；加权抽样的相关方法则对于模型和数据集的特点较为敏感且依赖于重复抽样假设，在实际应用中难以和已完成调参的学习率调整策略结合。两种从数据角度出发的方法在实践中很难真正帮助节省计算。

在本篇工作中，研究者从数据迭代这个角度切入进行了研究。长久以来，数据集的迭代方式大都采用随机迭代。对此，作者提出了InfoBatch框架，根据网络对样本的拟合情况进行动态剪枝采样的方法，并利用重缩放（rescaling）来维持剪枝后的梯度更新（Gradient Update）期望，以此在性能无损的情况下提高训练效率，加快训练速度。

InfoBatch在不同任务上的表现

仅需三行代码即可使用

在CIFAR10/100（ResNet,分类）、ImageNet-1K（ResNet/ViT,分类）和ADE20K（UperNet,语义分割）上，InfoBatch无损节省了40%的总开销（时间和计算）；在检测任务上（YOLOv8），InfoBatch无损节省了30%；

对于MAE预训练(ViT)和FFHQ图片生成（Latent Diffusion）, InfoBatch分别节省了24.8%和27%的开销。

在LLaMA的指令微调上, InfoBatch成功在静态压缩方法DQ[1]的基础上额外节省了20%开销，总开销为原始的1.6%，并且和LoRA兼容。

论文题目：InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning

论文链接：https://arxiv.org/abs/2303.04947

代码链接：https://github.com/henryqin1997/InfoBatch

一、动机

在过去的十年里，深度学习取得了长足的进步。与之相应的是大部分最先进的深度学习工作大都使用了超大规模的数据集，这对于很多资源有限的研究者来说是难以负担的。为了降低训练开销，研究者们进行了一系列不同研究。

一个比较直接的方法是降低数据集规模。数据集蒸馏（Dataset Distillation）[2]和核心集合选择（Coreset Selection）[1]分别从原有的数据集中合成/选择一个更小但更有信息量的新数据集（子集）。然而，虽然样本数量减少了，这两种方法本身却引入了不可忽略的额外开销。此外，这两种方法达到无损性能比较困难。另外的工作有加权抽样（weighted sampling）[3]，可以通过改变样本采样率来提高训练收敛速度，相应的缺点是加速比对模型和数据集敏感，难以直接和学习率调整策略结合。

近期，一些工作试图通过减少迭代来加速训练。其中一类方法和核心集合选择类似，通过给样本打分并排序来选取更有信息量的样本，其余样本不参加训练，作者称之为数据静态剪枝；另一类方法在此基础上，于训练过程中动态打分并周期性选取子集，作者称之为数据动态剪枝。相比于静态方法，动态方法的单次额外开销更小，而且同计算量性能更好，但是现有方法依旧难以达到无损性能。

为了应对以上方法的缺点，作者提出了InfoBatch训练框架。InfoBatch的主要改进如图1所示，它在数据迭代过程中动态剪枝，通过Soft Pruning（概率剪枝）和Gradient Rescaling（梯度重缩放）维护了总更新量的期望值不变，以此达到了无损加速的目的。为了防止剩余训练轮次不足时的残余偏差，InfoBatch在最后的少部分轮次中使用原始数据集随机采样训练。作者在分类，语义分割，目标检测，Diffusion图片生成，LLaMA指令微调等任务上验证了方法的无损加速。

二、方法

2.1 总览

现有的静态/动态数据剪枝方法，会通过某种方式给样本打分，然后对样本得分排序，选取“对训练更有帮助”的样本进行训练。这种选择通常是确定性的，和目标的剪枝百分比直接挂钩。与之相对应的问题是，直接剪枝导致了梯度期望值方向偏差以及总更新量的减少。

为了解决梯度更新的期望偏差，如图2所示，InfoBatch前向传播中维护了每个样本的分值，并以均值为阈值，对一定比例的低分样本进行了动态剪枝。为了维护梯度更新期望，剩余的低分样本的梯度被相应放大。通过这种方式，InfoBatch训练结果和原始数据训练结果的性能差距相比于之前方法得到了改善。为了进一步减少残余的梯度期望值偏差，InfoBatch在最后几个轮次中使用全数据训练。

2.2 无偏剪枝和重缩放（Unbiased Prune and Rescale）

2.3 退火（Annealing）

虽然理论上的期望更新基本一致，上述的期望值实际包含时刻 t 的多次取值。在训练中，如果一个样本在中间的某个轮次被剪枝，后续依旧大概率被训练到；而在剩余更新轮次不足时，这个概率会大幅下降，导致残余的梯度期望偏差。因此，在最后的几个训练轮次中（通常是12.5%~17.5%左右），InfoBatch采用完整的原始数据进行训练。

三、实验

3.1 实验设置

作者在多个数据集上验证了InfoBatch的有效性，包括（分类）CIFAR-10/100，ImageNet-1K，（分割）ADE20K，（图片生成）FFHQ，（指令微调）Alpaca。训练的模型包括（分类）ResNet18，ResNet-50，ViT-Base(MAE)， Swin-Tiny，(分割)UperNet，(图片生成)Latent Diffusion, （指令微调）LLaMA-7B。

3.2 实验结果

这里展示主要结果，更多结果请参考论文。