CVPR最佳学生论文！1千万张图像、跨越45万+物种的超大数据集，多模态模型BioCLIP实现零样本学习

不同于传统学术领域对期刊发表的重视，计算机界，尤其是机器学习、计算机视觉、人工智能等领域，顶级会议才是王道，无数「热门研究方向」、「创新方法」都将从这里流出。

作为计算机视觉乃至人工智能领域最具学术影响力的三大顶会之一，今年的国际计算机视觉与模式识别会议 (CVPR) 从会议规模到接受论文数量，都刷新了此前记录。

活动现场，图源：Dan Goldman

根据 CVPR 官方的最新公告，CVPR 2024 已经成为该会议历史上规模最大、参与人数最多的一届， 截止 6 月 19 日，现场参会人数已超过 1.2w 人。

图源：CVPR2024官方

此外，作为领先的计算机视觉盛会，CVPR 每年都会录用当前视觉领域的最新研究，在今年提交的 11,532 份有效论文中，2,719 篇论文被接收，与 CVPR 2023 相比，接收论文的数量提高 20.6%，而录用率却降低 2.2%。 这些数据表明，CVPR 2024 的热度、竞争激烈程度以及获奖论文的含金量均有所提升。

获奖论文数量，图源：php.cn

北京时间 6 月 20 日凌晨，CVPR 2024 正式公布了本届会议的最佳论文等奖项。据统计，本次共有 10 篇论文获奖，其中最佳论文 2 篇，最佳学生论文 2 篇，最佳论文提名 2 篇和最佳学生论文提名 4 篇。

BIoCLIP 获最佳学生论文，图源：CVPR2024官方

其中，「BIoCLIP: A Vision Foundation Model for the Tree of Life」被评为最佳学生论文。 对此，麻省理工学院计算机科学与人工智能实验室助理教授 Sara Beery 更是评价其作者和团队为「当之无愧」的获奖者，论文第一作者 Samuel Stevens 第一时间在平台上表示了感谢。

Sara Beery 在社交平台评价 BIoCLIP 团队当之无愧

HyperAI超神经将从数据集、模型架构、模型性能等方面，全面解读「BIoCLIP: A Vision Foundation Model for the Tree of Life」，并为大家汇总整理了一作 Sam Stevens 的其他成果。

论文下载地址：
https://arxiv.org/pdf/2311.18803

创建最大、最多样化的生物图像数据集

目前最大的机器学习生物图像数据集是 iNat21，包含 270 万张图像，覆盖 1 万个物种。尽管，与 ImageNet-1k 等通用领域数据集相比，iNat21 的分类广度有极大提升，但对于生物学而言，1 万个物种仍是凤毛麟角。国际自然保护联盟 (IUCN) 在 2022 年就报告了超过 200 万个已知物种，仅鸟类和爬行动物就分别超过 1 万个物种。

针对生物图像数据集物种类别限制的问题，研究人员构建了一个包含 1,000 万张图像的数据集 TreeOfLife-10M， 跨越 450K+ 物种，在数据集规模和物种多样性方面完成了革命性突破。

TreeOfLife-10M 中 108 个门类的树状图不同颜色代表不同的门类，方框大小代表样本的相对数量

该数据集结合了 iNaturalist、 BIOSCAN-1M 和生命百科全书 (Encyclopedia of Life, EOL) 中的生物图像。

TreeOfLife-10M 的数据来源

除了 iNat21 所覆盖的 1 万个物种类别外，研究人员从 EOL 下载了 660 万张图像，将 TreeOfLife-10M 扩展到覆盖额外的 44 万种分类群。同时，为了帮助基础模型学习昆虫的极细粒度视觉表征，研究人员还纳入了 BIOSCAN-1M，这是一个包含 100 万张实验室昆虫图像的最新数据集，覆盖 494 个不同的科、7,831 种物种分类。

TreeOfLife-10M 下载地址：
https://go.hyper.ai/Gliol

多模态模型 BioCLIP：基于 CLIP 提升泛化能力

与通用任务相比，生物学计算机视觉的标注空间 (label space) 更加丰富，不仅分类标注数量庞大，且标注在层级分类系统中相互连接，这无疑为训练高物种覆盖率、强泛化能力的基础模型带来了巨大挑战。

借助生物学数百年研究所积累的经验，研究人员认为，如果基础模型能够成功编码标注空间的结构，那么即便没有见过某个特定物种，模型就可能已经能够识别其所对应的属 (genus) 或科 (family) 并给出相应的表征，而这种层级表征 (hierarchical representation) 将有助于实现新分类群的少样本、甚至零样本学习。

基于此，研究人员选择了 OpenAI 开发的多模态模型架构 CLIP，并利用 CLIP 的多模态对比学习目标在 TREEOFLIFE-10M 上持续进行预训练。

具体而言，CLIP 对视觉编码器和文本编码器这两种单模态嵌入模型进行训练，从而最大化正对 (positive pairs) 之间的特征相似性，最小化负对 (negative pairs) 之间的特征相似性，其中正对来自训练数据，负对是 batch 中所有其他可能的配对。

BioCLIP 训练中的文本类型

此外，CLIP 的一个重要优势便是其文本编码器接受自由形式的文本，恰恰能够应对生物学领域多样化的类名格式问题。针对该研究中的文本形式，研究人员主要考虑了：

*** 分类名称 (Taxonomic name)：** 标准的七级生物分类从高到低依次为界 (Kingdom)、门 (Phylum)、纲 (Class)、目 (Order)、科 (Family)、属 (Genus)、种 (Species)。对于每个物种，通过将从根到叶的所有标注连接成一个字符串来「展平 (flatten)」分类系统，这个字符串就是分类名称。

*** 学名 (Scientific name)：** 由属和种组成。

*** 通用名 (Common name.)：** 分类名称通常是拉丁文，而在通用的图像-文本预训练数据集中不常见。相反，诸如「黑嘴喜鹊 (black-billed magpie)」这样的通用名称更为普遍。需要注意的是，通用名称与分类群之间可能并不是一对一映射关系，一个物种可能有多个通用名称，或者同一个通用名称可能指多个物种。

在实际应用中，可能只有一种类型的标注输入，为了在推理时提高灵活性，研究人员提出了一种混合文本类型训练策略， 即在每个训练步骤中，将每个输入图像与从所有可用文本类型中随机抽取的文本配对。实验证明，这种训练策略不仅保持了分类名称的泛化优势，还在推理时提供了更多灵活性。

BioCLIP 识别过程

如上图 a 所示，两种不同植物 Onoclea sensibilis (d) 和 Onoclea hintonii (e) 的分类群或分类标签，除物种 (species) 外，完全相同。

上图 b 所示，文本编码器是一个自回归语言模型，能够自然编码 taxonomy 的分层表征 (hierarchical representations)，其中的阶次表征 (order representation) Polypodiales 只能依赖于更高的阶次，从 Kingdom、Phylum 和 Class tokens 中吸收信息。这些分类标注 (taxonomic labels) 的分层表征被输入到标准的对比预训练目标中，并与图像表征 (d) 和 (e) 相匹配。

BioCLIP 和 CLIP 的预测示例

上图为 BioCLIP 和 CLIP 对鸟类 525、浮游生物、昆虫等五种的预测示例，正确标注为绿色，错误标注为红色。左侧一列为 BioCLIP 的正确预测。中间及右侧是 CLIP 错误标注但 BioCLIP 正确标注的图像。

BioCLIP 在零样本和少样本任务上表现出色

研究人员将 BioCLIP 与通用视觉模型进行了比较。结果显示 ，BioCLIP 在零样本和少样本任务中均表现出色，并且显著优于 CLIP 和 OpenCLIP， 在零样本和少样本任务中的平均绝对改善 (average absolute improvement) 分别为 17% 和 16%。内在分析进一步表明，BioCLIP 学习到了更细粒度的符合生命树的层次表示，解释了其卓越的泛化能力。

不同模型的零样本、一样本和五样本分类 top-1 准确率

具体而言，研究人员引入了一项新的评估任务「稀有物种 (RARE SPECIES)」，收集了世界自然保护联盟红色名录中的约 25K 个物种，这些物种被分类为近危、易危、濒危、极危或野外灭绝。研究人员在 EOL 数据集中，选取了至少有 30 幅图像的 400 个此类物种，然后将它们从 TreeOfLife-10M 中移除，创建了一个全新的稀有物种测试集， 每个物种有 30 幅图像。

对比结果如上图所示，BioCLIP 在零样本分类中明显优于基线 CLIP 模型以及 iNat21 训练的 CLIP 模型，尤其是在未见过的分类上（见 Rare Species 列）。

硕果累累，探索最佳 BioCLlP 背后的科研之道

「BioCLlP: A Vision Foundation Model for the Tree of Life」由美国俄亥俄州立大学、微软研究院、加州大学欧文分校、伦斯勒理工学院共同发布，论文的第一作者 Samuel Stevens 博士和通讯作者 Jiaman Wu 均来自俄亥俄州立大学。

尽管 Samuel Stevens 自谦地在其个人网页上描述自己「不是一个非常严肃对待自己的人」，但从他近几年丰硕的科研成果和不懈努力来看，他显然是一个严谨对待科研事业的人。

据了解，Samuel Stevens 从 2017 年开始，一直从事计算机方向的工作，多模态模型 BioCLlP 是他在 2023 年 12 月发布的一项研究成果，并于 2024 年 2 月被 CVPR 2024 接收。

事实上，类似 BioCLlP 等 computer vision 方向的工作只是他的研究方向之一，他的兴趣很广泛，也曾在 AI for crypto、various LLM projects 等领域展开了一系列研究。

例如，他曾参与的「MMMU：A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI」，提出了一个新基准 MMMU (大规模多任务语言理解）， 作为目前业界最有影响力的大模型测评基准之一，MMMU 侧重于利用特定领域（科学、健康与医学、人文等）的知识进行高级感知和推理，要求多模态模型能够执行与专家面临的类似任务。

研究人员用其对 14 个开源 LMM 和专有 GPT-4V (ision) 进行了评估，发现即使是先进的 GPT-4V 也只达到了 56% 的准确率，这表明模型还有很大的改进空间。对此，研究人员表示，希望该基准能激励社区建立下一代多模态基础模型，以实现专家级人工通用智能。
MMMU: https://mmmu-benchmark.github.io

当然，他对科研的热情和开放态度也是他取得成功的关键要素。昨日，BioCLlP 被评为最佳学生论文的消息刚出来，Samuel Stevens 博士第一时间通过社交平台向外界表达了他的观点：「如果您想聊聊动物的计算机视觉、多模态基础模型或 AI for Science，请私信我!」

Samuel Stevens 在社交平台表达开放的态度

值得一提的是，Samuel Stevens 博士不仅在科研路上砥砺前行，亦不忘提携后进。他的个人网页上也分享着对初学者的建议：「如果你想开始机器学习和人工智能。或许可以从 Coursera 的机器学习课程和 Andrej Karpathy 的 Neural Networks : Zero to Hero 开始。这两门课程的质量都非常高，与其他免费资源相比，应该会提供很多价值。」

参考资料：
1. https://samuelstevens.me/#news

最后推荐一个活动！

扫码即可报名参与「Meet AI Compiler」技术沙龙第 5 期线下聚会↓