BioCLIP：物种图像的基础视觉模型

news2025/1/9 1:23:13

从无人机到个人手机，各种相机收集的自然世界图像是越来越丰富的生物信息来源。从图像中提取生物相关信息用于科学的计算方法和工具激增，尤其是计算机视觉。然而，其中大多数都是为特定任务设计的，不容易适应或扩展到新的问题、环境和数据集。为了解决这一问题，BioCLIP发布了TREEOFLIFE-10M，这是最大、最多样化的生物图像数据集。然后开发了BIOCLIP，这是生命树的基础模型，利用TREEOFLIFE-10M捕捉到的生物学的独特特性，即植物、动物和真菌的丰富多样的图像，以及丰富的结构化生物学知识。BioCLIP在不同的细粒度生物分类任务上进行了严格的基准测试，BioCLIP始终显著优于现有的基线（绝对值为16%至17%）。

来自：BIOCLIP: A Vision Foundation Model for the Tree of Life

背景概述

计算机视觉正在迅速成为研究自然世界的工具。然而，应用计算机视觉来回答生物学问题仍然是一项艰巨的任务----生物学家必须手动为感兴趣的特定分类种群标记足够的数据，并找到和任务相关的模型。此时，CLIP和GPT-3等基础模型正在推进零样本或少样本学习（无需参数更新）。类似的生物学视觉基础模型应该适用于跨越整个生命树的任务，而不仅仅是它所训练的那些分类种群。

在这项工作中，作者的目标是为生命树开发这样一个基础模型：

首先，它应尽可能推广到整个生命树，以确保它支持研究人员研究许多不同的分支。此外，收集覆盖数百万已知分类群的训练数据是不可行的，因此该模型必须推广到训练数据中不存在的分类群。
其次，它应该学习生物图像的细粒度表示，这种细粒度是至关重要的，因为生命树将生物分为广泛的类别（动物、真菌和植物）甚至非常细粒度的类别（印第安浅蓝鸟，印第安蓝鸟）。
最后，由于生物学中数据收集和标记的高成本，在low-data（即零样本或少样本）设置中的性能至关重要。

虽然泛化、细粒度分类在计算机视觉中已经是老问题，但对于生物自然图像，数亿张图像上训练的现有通用视觉模型依然达不到要求。具体而言，现有的视觉模型产生了一般的细粒度表示，有助于比较狗和狼等常见生物，但不适用于更细粒度的比较，例如Onoclea sensibilis和Onoclea hintonii（见图1）。

下面，作者确定了开发生物学视觉基础模型的两个主要障碍。首先，需要合适的预训练数据集：现有数据集缺乏规模、多样性或细粒度标签。其次，需要研究适当的预训练策略，利用生物学领域的特性，更好地实现前面提到的三个关键目标。
fig1

图1：a.两种不同植物的两个分类群（taxa），或分类学标签（taxonomic labels），图d和图e，除了species之外，它们的taxa是相同的。b.自回归文本编码器自然地对分类法（taxonomy）的层次结构进行编码。看看Order token（Polypodiales）如何包含Kingdom, Phylum 和 Class tokens的信息。这有助于将视觉表示与层次结构对齐。c.分类标签的这些分层表示被馈送到标准对比预训练目标中，并与图像表示 d 和 e 相匹配。

文本类型	例子
Common-共识	black-billed magpie-黑嘴喜鹊
Scientific-科学	Pica hudsonia-黑嘴喜鹊
Taxonomic-分类学	Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia
Scientific + Common	Pica hudsonia with common name black-billed magpie
Taxonomic + Common	Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia with common name black-billed magpie

表3：BIOCLIP训练中考虑的文本类型。

贡献

鉴于这些目标和实现这些目标的挑战，作者介绍了：TREEOFLIFE-10M，一个大规模的ML ready生物图像数据集，以及BIOCLIP，一个生命树的视觉基础模型。

TREEOFLIFE-10M：一个大规模、多样化的ML生物图像数据集。作者策划并发布了迄今为止最大的ML ready生物图像数据集及其相关分类标签，包含超过1000万张图像，覆盖生命树中的454,000个分类群。相比之下，目前最大的ML ready生物图像数据集中iNat21仅包含270万张图像。TREEOFLIFE-10M集成了现有的高质量数据集，如iNat21和BIOSCAN-1M。更重要的是，它包括来自生命百科全书的最新图像，该百科全书提供了TREEOFLIFE-10M的大部分数据多样性。TREEOFLIFE-10M中的每个图像都以其尽可能最好的分类层次以及生命树中更高的分类等级进行标记（参见图1和表3中的分类等级和标签示例）。TREEOFLIFE-10M能够训练BIOCLIP和未来的生物学基础模型。
BIOCLIP：生命之树的视觉基础模型。对于TREEOFLIFE-10M等大规模标记数据集，一种标准、直观的训练策略（如ResNet50和Swin Transformer等其他视觉模型所采用的）是使用监督分类目标，并从图像中学习预测分类指数。然而，这并没有认识到和利用分类学标签的丰富结构——分类群（taxa）不是孤立存在的，而是在一个全面的分类学中相互联系的。因此，通过普通监督分类训练的模型不能很好地推广到那些unseen分类群（不能支持零样本分类）。

相反，作者提出了一种新的策略，将CLIP风格的多模态对比学习与BIOCLIP丰富的生物分类学相结合。作者将从Kingdom到最远端的taxon rank“扁平化”为一个称为taxonomic name的字符串，并使用CLIP对比学习目标来学习将图像与其对应的分类名称相匹配。直观地说，这有助于该模型推广到看不见的分类群——即使模型没有看到某个物种，它也很可能学会了该物种属（genus）或科（family）的合理表示（见图1）。BIOCLIP还支持零样本分类法（开放词汇表）。作者进一步提出并证明了混合文本类型训练策略的有效性；通过在训练过程中混合不同的文本类型（例如，taxonomic vs. scientific vs. common），模型保留了taxonomic name的泛化能力，同时在测试时具有更大的灵活性。例如，即使下游用户只提供常见的物种名称，BIOCLIP仍然表现出色。
tab4

表4：模型基准测试。

CLIP背景下的零样本和小样本场景

对于零样本，遵循与CLIP相同的程序（直接计算输入图像与候选文本的相似度就行）。对于小样本学习，遵循SimpleShot并使用nearest-centroid classifier。对于k-shot，首先对每个类的k个示例进行随机采样，并从预训练模型的视觉编码器中获得图像embedding。然后，计算 k 个嵌入的平均特征向量作为每个类的质心。数据集中剩下的所有示例都用于测试。在对每个质心和测试特征向量应用均值减法和L2归一化后，选择质心离测试向量最近的类作为预测类。作者用不同的随机种子重复每个实验5次，并在表4中报告平均准确度。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1870883.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！