多模态PaliGemma——Google推出的基于SigLIP和Gemma的视觉语言模型

news2025/1/10 21:18:37

前言

本文怎么来的呢?其实很简单,源于上一篇文章《π0——用于通用机器人控制的流匹配VLA模型:一套框架控制7种机械臂(改造了PaliGemma和ACT的3B模型)》中的π0用到了PaliGemma

故本文便来解读下这个PaliGemma

第一部分 PaliGemma

1.1 PaliGemma:基于 SigLIP--So400m 和 Gemma-2B

1.1.1 PaliGemma的发展历史

PaliGemma 是一个开放的视觉语言模型(VLM),基于 SigLIP--So400m 视觉编码器和 Gemma-2B 语言模型

其结合了PaLI视觉语言模型和Gemma语言模型家族的特点

  1. PaLI是一系列最先进的视觉-语言模型,最初的PaLI [23-PaLI:A jointly-scaled multilingual languageimage model]展示了有前景的扩展结果,规模达到了170亿,使用了分类预训练的ViT [131]和mT5 [126]语言模型

    随后,PaLI-X [24-PaLI-X: On scaling up a multilingual vision and language model]和PaLM-E [36- PaLM-E: An embodied multimodal language model]进一步推进了这一点,分别结合了ViT-22 B [29],和32 BUL2 [104]语言模型或540 B PaLM [28]语言模型,并在视觉-语言任务上获得了更高的性能,尽管在标准图像分类和检索任务上的性能趋于饱和

    最后,PaLI-3 [25- PaLI-3 vision language models: Smaller, faster, stronger]证明,通过使用SigLIP [133- Sigmoid loss for language image pre-training]进行更好的预训练和更仔细的多模态数据策划,一个2B视觉和3B语言模型(即一个5B视觉-语言模型)可以在大多数基准测试中,与规模大10倍的55B PaLI-X(22B视觉 + 32B语言)、和规模大100倍的562B PaLM-E(22B视觉 + 540B语言)相匹敌
  2. PaliGemma 延续了这一趋势,将 400M SigLIP 和 2B Gemma 模型 [82] 结合成一个小于 3 B 的 VLM,同时仍然保持与 PaLI-X、PaLM-E 和 PaLI-3 相当的性能

    至于Gemma [82],则是一个自回归解码器专用的开放大型语言模型家族,基于用于创建Gemini [7] 模型的相同研究和技术构建。这些模型有不同的大小(2B、7B),都经过预训练和指令微调,而PaliGemma使用了2B预训练版本「关于gemma的介绍,请见此文:一文速览Gemma1和2及其微调(第5.2版):通过我司七月的早期paper-7方面review数据集微调Gemma2

1.1.2 PaliGemma的三个组件:SigLIP、gemma-2B、线性层

 总之,PaliGemma由三个组件组成

  1. 一个图像编码器,使用SigLIP,其shape optimized ViT-So400m图像编码器,该模型通过sigmoid损失在大规模上进行了对比预训练,且其在小尺寸上也表现出色
  2. 一个仅解码器的语言模型,使用gemma-2B v1.0,该模型可以匹配或超越使用相对更大些的语言模型的VLMs的性能,包括之前的PaLIs
  3. 一个线性层,将SigLIP的输出投影到与gemma-2B的词汇token相同的维度,以便它们可以被连接「其实PaliGemma的作者也不是没考虑别的选择,而是在他们的早期实验中,他们发现更复杂的替代方案——MLPs,并没有提供明显的优势,因此决定使用最简单的选项

具体训练时

  •  图像通过图像编码器传递,将其转换为一系列N_{\mathrm{img}} token,且图像token通过(零初始化的)线性投影进行投影
    文本使用Gemma的SentencePiece [58] 分词器转换为N_{\mathrm{txt}} token,并嵌入到Gemma的词汇嵌入层中
  • 然后,解码器的输入token序列按如下方式创建,如下图图2所示「一般而言,输入为一张或多张图像,以及任务的文本描述(提示或问题,通常称之为 prefix),PaliGemma 然后以文本字符串的形式自回归生成预测(答案,通常称之为 suffix)」,其在图像和前缀中进行块注意,在后缀上进行自回归注意,每个方块表示该行是否可以关注该列

    ​即有

      \begin{aligned} \text { tokens }= & \text { [image tokens..., } \\ & \text { BOS, prefix tokens..., SEP, } \\ & \text { suffix tokens..., EOS, PAD...] } \end{aligned}

    可以发现,过程中,一般始终将图像调整为固定的正方形大小(224、4488或896像素)。这导致每个模型变体的图像token数量固定(分别为256、1024或4096个token),且将其放在前面,使图像token易于解释,无需特殊位置token

    然后BOS标记标记文本token的开始。作者使用 \n作为SEP标记,它不会出现在任何前缀中。且还将SEP单独标记,以避免它与前缀的结尾或后缀的开头合并(由标记器)

    另为了最大化这样一个小模型的模型容量,对整个输入有完整的(未mask的)注意力,包括图像和前缀token「In order to maximize model capacity for such a small model, we have full (unmasked) attention on the whole input, i.e. the image and prefix tokens.说白了,就是图像token可以看到整个输入:图像token和前缀token,而前缀token也可以看到整个输入:图像token和前缀token
    \rightarrow  通过这种方式,图像token也可以“前瞻”手头的任务(前缀),以更新其表示
    \rightarrow  后缀是输出,必须由自回归掩码覆盖,包括PAD token
    当提到序列长度(N_{\mathrm{txt}})时,通常指的是前缀和后缀的组合,忽略图像token

1.2 预训练:先后进行单模态预训练、多模态预训练、分辨率增加、迁移

PaliGemma的训练遵循与之前的PaLI模型相同的步骤,仅进行了小的修改。训练包括以下几个阶段

1.2.1 阶段0: 单模态预训练

首先,模型的单模态组件单独进行预训练,以便从其经过充分研究和扩展的训练方案中受益。对于PaliGemma,没有进行任何自定义的单模态预训练,而是依赖于现有的公开可用的检查点

根据PaLI-3的强实验结果,Google使用SigLIP图像编码器。虽然PaLI-3(和其他[6,26])使用大
型图像模型如ViT-G,但PaliGemma使用了更小但同样强大的“形状优化”ViT-So400m模型

至于语言模型上,则使用gemma-2B

1.2.2 阶段1:多模态预训练

一般而言,也是之前的PaLI版本所遵循的,是在第一个多模态预训练阶段保持图像编码器冻结。这部分是由于LiT [132]中的研究发现,多模态调优预训练图像编码器会降低其表示能力

  1. 然而,最近的研究如CapPa [110]和LocCa [115]表明,字幕生成和其他难以学习的任务可以为图像编码器提供有价值的信号,使其能够学习空间和关系理解能力,而对比模型如CLIP或SigLIP通常缺乏这些能力
    因此,为了在预训练期间学习更多技能,作者打破常规,不冻结图像编码器。然而,LiT中概述的挑战依然存在
  2. 且为了避免来自最初未对齐的语言模型的破坏性监督信号,作者对图像编码器的学习率采用缓慢的线性预热(如下图图3所示),以确保图像编码器的质量不因最初未对齐的梯度通过LLM而恶化

  3. 总之,在分辨率224px下训练Stage1(因此,img = 256个图像标记)和序列长度25txt = 128,总共训练10亿个样本。虽然作者提供了一个消融实验,显示即使Stage1缩短10到30倍,仍然在流行的基准测试中提供了良好的结果,但作者希望尽可能多地将视觉知识灌输到基础模型中,并涵盖广泛的概念、文化和语言 [17 37 68, 85,92 93 136]

1.2.3 阶段2:分辨率增加

阶段1产生的模型已经是许多任务的有用基础模型(参见附录B中的示例图像)。然而,它只能理解224 × 224像素分辨率的图像,这对于某些任务来说太小了

  1. 例如,较小物体的检测和分割,以及与阅读较小文本相关的任务,如图表、信息图或文档,都非常受益于更高的分辨率(参见表1)
  2. 因此,作者训练了两个进一步的模型检查点以提高分辨率,首先是448 × 448,然后是896 × 896像素分辨率
    由于阶段1已经为模型提供了广泛的知识和技能,阶段2可以专注于扩展模型解析高分辨率图像的能力
    因此,作者在阶段2中使用较少的总示例,同时增加每个示例的成本和信息密度
    对于448分辨率,额外训练了5000万示例
    而对于896分辨率,又增加了1000万示例
  3. 为简单起见,阶段2由与阶段1完全相同的任务和数据集组成,但显著增加了对需要高分辨率的任务的采样。此外,这些加权任务都可以被修改以提供更长的后缀序列长度

    例如,对于CR任务,可以简单地请求模型以从左到右、从上到下的顺序读取图像上的所有文本
    对于检测和分割任务,可以请求模型检测或分割所有提供了注释的对象
    因此,我们还将文本序列长度增加到N_{\mathrm{txt}}=512个token

虽然PaLI一直有这个分辨率增加阶段,并且对于图像分类,分辨率的重要性早已为人所知[55, 109],但最近的几项工作[81,114,121]也提高了分辨率在VLMs中的重要性

1.2.4 阶段3:迁移(本质是微调)

阶段1和阶段2的结果是一系列三个PaliGemma检查点,分辨率为224px、448px和896px,预先配备了广泛的视觉知识

然而,这些检查点并不是“用户(或基准)友好”的,因为它们的预训练仅专注于学习信号的密度,而不是可用的界面

这些基础模型需要被迁移以实现其预期的最终目的。这可能采取在特定、专业化任务上进行微调的形式,例如COCO Captions、遥感VQA、视频字幕或InfographicQA,以适应新的输入,例如多张图像(NLVR2)或在图像中绘制的边界框(WidgetCap)。或者,它可以采取指令[70]甚至聊天[46]调优的形式

  • 为了展示基础模型的有效性,作者将它们迁移到广泛的单个学术基准上,使用一个简单统一的迁移方案,只有少量的超参数
  • 为了展示超越学术任务的多功能性,作者还提供了一个“混合”迁移检查点,同时迁移到这些任务的一个子集,并附有详细的字幕和长问答数据。虽然这不是指令微调,但这是朝着这个方向迈出的一步
  • 作者还将PaliGemma迁移到需要多张图像作为输入的任务中。NLVR2就是这样一个任务,它要求对两张图像提出一个问题,并需要查看两者以给出正确答案。其他此类任务是标准的短视频理解任务,抽样到16帧

在所有上面这些情况下,作者遵循PaLI-3的做法,分别编码每张图像,然后连接图像token,而不使用任何特殊分隔符或嵌入token

因此,224px分辨率下的16帧导致N_{\text {img }}=4096个图像token,与986px分辨率下的单个图像数量相同

对于所有迁移,作者对所有模型参数进行微调,且作者根据任务修改的超参数如下,按重要递减排序

  • 分辨率(即.检查点): 224,448, 896
  • 周期:1,3,10,30,100
  • 学习率:3e-5, 1e-5, 3e-6
  • 标签平滑:0.0,0.1,0.3
  • LLM中的丢奔:0.0,0.1,0.3
  • 权重衰减:0.0或 0.1x学习率
  • 冻结ViT: false, true
  • Beam-search可能有利于字幕生成

1.2.5 预训练任务组合

就像之前的PaLI模型一样,预训练(阶段1和阶段2)的设计目的是为了得到一个迁移效果好的模型,而不一定是一个可以直接使用的模型(“0 shot”)

这里的直觉是作者希望任务的混合能迫使模型获得广泛的“技能”范围。故为每个任务加上其
独特的前缀,以避免跨技能的学习信号冲突 [14]

在迁移阶段(阶段3),模型只需识别出对任务有用的技能,并重新调整自身以使用该技能,同时遵循任务的输出语法和词汇。根据作者的经验,这些都可以相对快速地完成,并且基于少量示例(原论文第6.3节)

至于在预训练期间不使用任何迁移数据集,并且从预训练数据集中,进一步移除所有与其图像近似重复的内容「We do not use any of our transfer datasets during pretraining, and furthermore remove all near-duplicates of their images from the pretraining datasets [55]

大体上遵循之前的PaLI工作,这些是预训练
任务:

  1. caption {lang}
    作者在各种数据集上包括简单的字幕目标,包括超过100种语言的WebII和CC3M-3510 之前的PaLI使用带有Split-Cap目标的编码器-解码器语言模型
    然而对于PaliGemma,使用仅解码器语言模型,简单的字幕是一个更具信息性和更简单的目标
  2. ocr
    通过公共OCR系统转录的图像上所有文本的(按光栅顺序)连接。可能会跳过OCR的随机片段,以便在不偏向光栅顺序开头的情况下适应序列长度
  3. 回答en {question}
    在CC3M-35L上生成的VQA,遵循[19],问题使用35种语言,但答案为英语
    此外,在OpenImages上生成的仅限英语的以对象为中心的问题,遵循[91]:
    listing: What objects are in the image?,
    presence: Is {thing} in the image?,
    multi-object presence: Which of {thing},{thing}... are in the image?,
    and newly, counting: How many {thing}?.
  4. 问题 {lang] {English answer}
    在CC3M-35L上生成的VQG,遵循[19],为给定的英语答案生成35种语言的问题
  5. 检测 {thing} ; {thing} ; ...
    类似于 Pix2Seq [22] 的多目标检测,通过伪标签在生成的开放世界数据上进行,如OWI-ViTv2[83] 中所述
  6. 分割 {thing} ; {thing} ; ...
    在生成的开放世界数据上进行多目标实例分割,类似于 OWL-ViTv2 [83] 和 SAM [54]
  7. 描述 <ymin><xmin><ymax><xmax>
    根据 LocCa [115],对框内内容进行定位描述。框由检测和分割中使用的相同位置标记指示:
    归一化的图像坐标被分为1024个token

以下是其他的预训练细节

  1. 在整个预训练过程中,我们使用“无限”学习率计划,遵循(131],这提供了一种简单的方法来连接多个阶段,而不在它们之间衰减学习率。
    图3显示了完整的计划:预训练是一个连续的rsqrt曲线,适用于所有阶
    段。然后,迁移可以作为冷却期,完全退火学习率。作者建议使用简单的设置进行迁移,采用余弦学习率调度,短线性预热并衰减至零,调整整个模型。
    由于持续时间相对较短,图3未能很好地表示这一点
  2. 该模型完全在开源 big_vision代码库[12]上的 Cloud TPUv5e [38] 中训练。然而,一些预训练数据集仍然是私有的。在训练过程中,作者使用 JAX [16] 和 GSPMD [125],以 zero-DP风格[96] 在所有可用设备上划分数据、模型参数和优化器状态

    这种完全分片的数据并行 (FSDP [137]) 分片策略是通过构建全局数组并相应地注释分片来实现的,XLA编译器[97] 负责计算的具体实现以及设备之间的通信

    且他们测量了模型的FLOPS利用率(MFU)为55%,每秒每个设备处理5189个tokens。模型参数和优化器状态保持在float 32,以保证训练的稳定性,但还验证了推理在bfloat11模型参数下同样有效
  3. 使用TPUv5e-255进行最终PaliGemma模型的一次训练运行,Stage1耗时略少于3天,每个Stage1耗时15小时。Stage1处理略少于350 B个tokens,两个Stage合计约90 B个tokens。在TPUv3-32上,迁移根据任务不同耗时在20分钟到10小时之间

    为了避免模型对不同框架中不同图像处理细节的脆弱性,作者随机化图像预处理细节,如调整大小方法、JPEG编码,并应用非常轻微的inception_crop

第二部分 关于PaliGemma的一系列消融实验

2.1 多模态预训练时长

对于PaliGemma这个多模态预训练 (Stage1)而言, 其到10亿个示例,属于较长的一类,类似于BLIP-2 [62]、InterVL [26]、QwenvL. [10]、Idefics2 [59〕 (都在10亿左右),但不同于ShareGPT4-v [21]、Mini-Gemini [65]、LLava [70]及其衍生物(约100万)

且作者进行了各种较短的预训练持续时间,甚至完全跳过Stage1,并在下图图4中显示影响,在附录K.1中对各个任务进行了完整的细分

对于跳过Stage1的情况,作者在为每个任务扫过三个学习率时使用最佳迁移结果

结果表明,较短的训练通常会带来不利影响,而完全跳过Stage1是最糟糕的设置。一些任
务受到显著影响,而其他任务仅略有恶化,这突显了需要一套广泛而多样的评估任务

100M的预训练持续时间似乎是消融实验的一个良好折衷:它缩短了10倍,同时没有显著损害任何任务

2.2 因果遮蔽和学习目标

作者在下图图5中对预训练学习目标的几个关键选择进行了消融,原论文附录K.2中有完整的每任务细分

  1. 首先,研究了自回归遮蔽的设计选择。PaliGemma 使用了一种前缀-LM策略,该策略允许对数据的“输入”部分进行完整(双向)注意,即图像前缀token,另见图2

    其动机是,它允许更多的token从一开始就积极参与“思考”过程,因为图像token现在可以关注代表查询的前缀token

    这在图5(左)中得到实证确认,其中绿色条还包括对前缀token的自回归掩码where the
    green bars also include the auto-regressive masking on the prefix tokens,

    橙色条进一步将自回归掩码扩展到图像token。两组条形图都有效,但表现明显不如由蓝色条表示的 PaliGemma 的前缀-LM 设置

    其次,作者仅对后缀(输出)应用下一个token预测损失。原则上,一旦前缀token被自回归地掩盖,它也可以应用于这些标记。这可以通过要求模型“猜测问题”来提供更多的学习信号。再次,图5显示,虽然这样做有效,但显然降低了平均性能

2.3 冻结还是不冻结?答案是不冻结更好

当前在VLMs中的普遍观点[23-25,45,52,60,62,66,70]是保持图像编码器,有时在多模态预训练(比如Stage1)期间保持LLM冻结

然而,受到GapPa[1101和LocCa[115]的积极结果的启发,这些结果表明使用字幕目标预训练图像编码器基本上解決了对比的盲点[43〕,即关系和定位,作者在预训练PaliGemma时没有冻结任何部分

作者现在在下图图7中消融冻结或调整模型各部分在Stage1期问的效果,完整的每任务细分在附录K.3中。与同时进行的工作类似[81,107],发现不冻结任何部分模型的确是有利的

  1. 首先,迁移后,保持图像编码器冻结(左,TT和TF)没有区别。然而,要求空间理解的任务的验证困惑度(因此,可预测性)(右,绿色)显著提高
  2. 此外,实验显示,所有其他包括冻结语言模型的选项 [111] 都显著更差
  3. 最后,重置(和训练,R)模型的任何部分会严重损害性能,证实了阶段0(即利用预训练组件)对于获得良好结果确实至关重要

2.4 PaliGemma三大组件中连接器的设计

在上文1.1.2节中,我们已经知道,PaliGemma最终使用线性连接器将SigLiP输出嵌入映射到Gemma的输入

而为何选择线性连接器,有没有考虑过其他的连接器呢?

作者还真考虑过,比如对MLP连接器 [69] 便是VLM文献中的热门选择,作者特此对此选择进行了消融

  1. 他们考虑了两种连接器选择:线性连接器和MLP(1个隐藏层,带有GeLU非线性)
  2. 且还考虑了两种Stage1预训练设置:调整所有权重(TT),或冻结除连接器之外的所有内容(FF)
  3. 在调整所有权重时,线性与MLP的平均迁移分数几乎相同,分别达到77.2和77.1分
    在“全冻结”场景中,线性与MLP分别达到70.7和69.7
    令人惊讶的是,作者观察到MLP连接器的性能略有下降

总体而言,他们得出结论,在他们的案例中,线性连接器似乎比MLP连接器更可取

2.5 图像编码器:有或没有?

大多数VLM遵循的设置是拥有一个图像编码器,例如CLIP SigLI(大多数工作)或VOCAN
Chameleon系列工作[2,3,105, 1291),以便在将图像传递给IIM之前将其转换为软标记

作者在论文中说,他们只知道两个工作尝试通过完全移除图像编码器并将原始图像补丁传递给仅解码器的LLM来简化这一整体设置,即Fuyu [11]和EVE [34]

不幸的是,前者没有提供训练细节或消融实验。后者是一个同时进行的工作,提供了一些关于训
练和各种消融实验的细节,但结果好坏参半。

在PaliGemma中移除SigLIP编码器会导致模型成为相同的统一解码器架构,既然想到了,那就试一下呗?故移除下SigLIP编码器之后运行Stage1和迁移

由于架构发生了显著变化,作者还重新调整了Stage1的学习率

下图图8(每个任务的细分见附录K.4) 显示,虽然这种架构仍然显著落后,但随着预训练时间的增加,扩展性似乎具有潜在的前景

且特别值得注意的是,PaliGemma的SigLIP编码器在其Stage 0预训练期间已经看到了400亿对图像-文本对,而Fuyu风格模型在这里展示的Stage1预训练中首次看到图像,并且在作者的实验中最多只看到10亿对

这种消融研究证实,这种仅解码器的VLM可能是朝向更简单的多模态模型的一个有前途的末来方向,尽管由于无法重用视觉组件,它们目前在训练效率上仍然存在问题

// 待更

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2234112.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开源模型应用落地-glm模型小试-glm-4-9b-chat-Gradio集成(三)

一、前言 GLM-4是智谱AI团队于2024年1月16日发布的基座大模型&#xff0c;旨在自动理解和规划用户的复杂指令&#xff0c;并能调用网页浏览器。其功能包括数据分析、图表创建、PPT生成等&#xff0c;支持128K的上下文窗口&#xff0c;使其在长文本处理和精度召回方面表现优异&a…

ABAP开发学习——OLE

目录 1.概览 2.OEL的实现方式 3.OLE的配置 4.OLE的实现 4.1 OLE Demo 4.2 OLE实现的步骤 5.OLE实现样例 5.1 OLE中的的类型转换 5.2 变量定义 5.3 创建对象 5.4 表单页的操作 5.5 设置文件保存路径 5.6 文件是否可见 5.7 单元格操作 5.7.1 给单元格赋值 5.7.2…

在Java中,实现数据库连接通常使用JDBC

学习总结 1、掌握 JAVA入门到进阶知识(持续写作中……&#xff09; 2、学会Oracle数据库入门到入土用法(创作中……&#xff09; 3、手把手教你开发炫酷的vbs脚本制作(完善中……&#xff09; 4、牛逼哄哄的 IDEA编程利器技巧(编写中……&#xff09; 5、面经吐血整理的 面试技…

单臂路由实现不同VLAN之间设备通信

转载请注明出处 本实验为单臂路由配置&#xff0c;目的为让不同VLAN之间的设备能够互相通信。 1.首先&#xff0c;按照要求配置两个pc的ip地址&#xff0c;以pc0为例子&#xff1a; 2在交换机创建vlan10和vlan20 3.划分vlan&#xff0c;pc0为vlan10的设备&#xff0c;pc1为vla…

前后端交互通用排序策略

目录 排序场景 排序实现思路 1. 静态代码排序实现 2.数据库驱动排序实现 3. 基于Java反射的动态排序实现 通用排序工具 SortListUtil 结语 排序场景 在面向前端数据展示的应用场景中&#xff0c;我们旨在实现一个更加灵活的排序机制&#xff0c;该机制能够支持对从后端传递…

【华为云-云驻共创】UCS跨云多活容灾:让业务高可用不再是难题

【摘要】云原生应用深入到企业各个业务场景&#xff0c;云原生正在走向分布式化&#xff0c;跨云跨域统一协同治理&#xff0c;保证一致应用体验&#xff0c;这些新的需求日益凸显。而容灾是确保服务高可用的保障&#xff0c;但即使应用部署在云上&#xff0c;也无法避免市政方…

Linux内核编程(十九)SPI子系统的应用与驱动编写

本文目录 一、 SPI驱动框架图二、编写SPI驱动device框架三、编写SPI驱动driver框架四、实验一编写mcp2515驱动1. 注册字符设备或杂项设备框架2. SPI写数据3. SPI读寄存器数据 4. MCP2515相关配置 对于SPI基础知识这里不做过多讲解&#xff0c;详情查看&#xff1a;SPI基础知识实…

谍影重重5.0

打开流量包可以发现&#xff0c;流量中含有大量的smb加密通信&#xff0c;并且使用了ntlm v2加密协议进行身份认证 包过滤ntlmssp 认证后smb协议进行了大量的数据传输 取出tom的包内数据 得到以下数据 username:tomdomain: .NTProofStr: ca32f9b5b48c04ccfa96f35213d63d75NT…

qt QAbstractItemModel详解

1. 概述 QAbstractItemModel是Qt框架中的一个核心抽象基类&#xff0c;在Qt的模型/视图架构中扮演着至关重要的角色。这个类提供了一个接口&#xff0c;用于表示和管理数据&#xff0c;但不直接处理数据的存储。它的主要功能是为视图组件&#xff08;如QListView、QTableView和…

华为OD机试 - 无重复字符的元素长度乘积的最大值(Python/JS/C/C++ 2024 C卷 100分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试真题&#xff08;Python/JS/C/C&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加入华为OD刷题交流群&#xff0c;…

【C++之STL】一文学会使用 string

文章目录 1. STL导读1. 1 什么是STL1. 2 STL的版本1. 3 STL六大组件1. 4 STL的重要性1. 5 STL的学习1. 6 STL系列博客的规划 2. string2. 1 为什么学习string类?2. 2 标准库中的string2. 3 基本构造2. 4 尾插与输出运算符重载2. 5 构造函数2. 6 赋值运算符重载2. 7 容量操作2.…

【分布式】分布式锁设计与Redisson源码解析

分布式锁 分布式锁是一种在分布式计算环境中用于控制多个节点&#xff08;或多个进程&#xff09;对共享资源的访问的机制。在分布式系统中&#xff0c;多个节点可能需要协调对共享资源的访问&#xff0c;以防止数据的不一致性或冲突。分布式锁允许多个节点在竞争访问共享资源…

【实测有效】两个Ubuntu系统通过网线传输文件

基本思路是&#xff1a;连接网线后&#xff0c;通过设置静态IP&#xff0c;将两台电脑配置在同一个局域网内&#xff0c;再进行文件传输。 一、物理连接 使用网线将两台电脑的网口连接起来。 二、静态IP设置 两台电脑均需要对各自的静态IP进行设置。 1、查看电脑的IP地址 1&a…

Android camera2

一、序言 为了对阶段性的知识积累、方便以后调查问题&#xff0c;特做此文档&#xff01; 将以camera app 使用camera2 api进行分析。 (1)、打开相机 openCamera (2)、创建会话 createCaptureSession (3)、开始预览 setRepeatingRequest (4)、停止预览 stopRepeating (5)、关闭…

【Redis_Day3】Redis通用命令

【Redis_Day3】Redis通用命令 redis客户端的三种形态redis的快与慢redis通用命令阅读redis官方文档redis中两个核心命令set命令get命令 redis全局命令keys命令&#xff1a;查询当前服务器上的key生产环境 exists命令&#xff1a;判定key是否存在del命令&#xff1a;删除指定的k…

静态库、动态库、framework、xcframework、use_frameworks!的作用、关联核心SDK工程和测试(主)工程、设备CPU架构

1.1库的概念 库&#xff1a;程序代码的集合&#xff0c;编译好的二进制文件加上头文件供使用&#xff0c;共享程序代码的一种方式。 1.2库的分类 根据开源情况分为&#xff1a;开源库&#xff08;能看到具体实现&#xff09;、闭源库&#xff08;只公开调用的的接口&#xf…

小菜家教平台:基于SpringBoot+Vue打造一站式学习管理系统

前言 现在已经学习了很多与Java相关的知识&#xff0c;但是迟迟没有进行一个完整的实践&#xff08;之前这个项目开发到一半&#xff0c;很多东西没学搁置了&#xff0c;同时原先的项目中也有很多的问题&#xff09;&#xff0c;所以现在准备从零开始做一个基于SpringBootVue的…

【C++、数据结构】哈希表——散列表(一)(概念/总结)

「前言」 &#x1f308;个人主页&#xff1a; 代码探秘者 &#x1f308;C语言专栏&#xff1a;C语言 &#x1f308;C专栏&#xff1a; C / STL使用以及模拟实现 &#x1f308;数据结构专栏&#xff1a; 数据结构 / 十大排序算法 &#x1f308;Linux专栏&#xff1a; Linux系统编…

山东路远生态科技有限公司竣工投产仪式暨产品发布会圆满举行

第二十届三中全会于2024年7月15日至18日在北京举行。全会审议通过了《关于进一步全面深化改革、推进中国式现代化的决定》。其中提到,“要健全因地制宜发展新质生产力体制机制”。 新质生产力是由技术革命性突破、生产要素创新性配置、产业深度转型升级而催生的当代先进生产力…

MD5(Crypto)

解题思路 打开文件发现一串代码&#xff0c;结合题目提示&#xff0c;应该是 MD5 加密。 找个在线的 MD5 解密网站&#xff0c;行云流水得到 flag。 题目设计原理 题目设计&#xff1a;无他&#xff0c;MD5 加密。 题目原理&#xff1a; MD5&#xff08;Message-Digest Algo…