BioCLIP:物种图像的基础视觉模型

news2024/10/7 8:30:07

从无人机到个人手机,各种相机收集的自然世界图像是越来越丰富的生物信息来源。从图像中提取生物相关信息用于科学的计算方法和工具激增,尤其是计算机视觉。然而,其中大多数都是为特定任务设计的,不容易适应或扩展到新的问题、环境和数据集。为了解决这一问题,BioCLIP发布了TREEOFLIFE-10M,这是最大、最多样化的生物图像数据集。然后开发了BIOCLIP,这是生命树的基础模型,利用TREEOFLIFE-10M捕捉到的生物学的独特特性,即植物、动物和真菌的丰富多样的图像,以及丰富的结构化生物学知识。BioCLIP在不同的细粒度生物分类任务上进行了严格的基准测试,BioCLIP始终显著优于现有的基线(绝对值为16%至17%)。

来自:BIOCLIP: A Vision Foundation Model for the Tree of Life

目录

  • 背景概述
  • 贡献
  • CLIP背景下的零样本和小样本场景

背景概述

计算机视觉正在迅速成为研究自然世界的工具。然而,应用计算机视觉来回答生物学问题仍然是一项艰巨的任务----生物学家必须手动为感兴趣的特定分类种群标记足够的数据,并找到和任务相关的模型。此时,CLIP和GPT-3等基础模型正在推进零样本或少样本学习(无需参数更新)。类似的生物学视觉基础模型应该适用于跨越整个生命树的任务,而不仅仅是它所训练的那些分类种群。

在这项工作中,作者的目标是为生命树开发这样一个基础模型:

  • 首先,它应尽可能推广到整个生命树,以确保它支持研究人员研究许多不同的分支。此外,收集覆盖数百万已知分类群的训练数据是不可行的,因此该模型必须推广到训练数据中不存在的分类群。
  • 其次,它应该学习生物图像的细粒度表示,这种细粒度是至关重要的,因为生命树将生物分为广泛的类别(动物、真菌和植物)甚至非常细粒度的类别(印第安浅蓝鸟,印第安蓝鸟)。
  • 最后,由于生物学中数据收集和标记的高成本,在low-data(即零样本或少样本)设置中的性能至关重要。

虽然泛化、细粒度分类在计算机视觉中已经是老问题,但对于生物自然图像,数亿张图像上训练的现有通用视觉模型依然达不到要求。具体而言,现有的视觉模型产生了一般的细粒度表示,有助于比较狗和狼等常见生物,但不适用于更细粒度的比较,例如Onoclea sensibilis和Onoclea hintonii(见图1)。

下面,作者确定了开发生物学视觉基础模型的两个主要障碍。首先,需要合适的预训练数据集:现有数据集缺乏规模、多样性或细粒度标签。其次,需要研究适当的预训练策略,利用生物学领域的特性,更好地实现前面提到的三个关键目标。
fig1

  • 图1:a.两种不同植物的两个分类群(taxa),或分类学标签(taxonomic labels),图d和图e,除了species之外,它们的taxa是相同的。b.自回归文本编码器自然地对分类法(taxonomy)的层次结构进行编码。看看Order token(Polypodiales)如何包含Kingdom, Phylum 和 Class tokens的信息。这有助于将视觉表示与层次结构对齐。c.分类标签的这些分层表示被馈送到标准对比预训练目标中,并与图像表示 d 和 e 相匹配。
文本类型例子
Common-共识black-billed magpie-黑嘴喜鹊
Scientific-科学Pica hudsonia-黑嘴喜鹊
Taxonomic-分类学Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia
Scientific + CommonPica hudsonia with common name black-billed magpie
Taxonomic + CommonAnimalia Chordata Aves Passeriformes Corvidae Pica hudsonia with common name black-billed magpie
  • 表3:BIOCLIP训练中考虑的文本类型。

贡献

鉴于这些目标和实现这些目标的挑战,作者介绍了:TREEOFLIFE-10M,一个大规模的ML ready生物图像数据集,以及BIOCLIP,一个生命树的视觉基础模型。

  • TREEOFLIFE-10M:一个大规模、多样化的ML生物图像数据集。作者策划并发布了迄今为止最大的ML ready生物图像数据集及其相关分类标签,包含超过1000万张图像,覆盖生命树中的454,000个分类群。相比之下,目前最大的ML ready生物图像数据集中iNat21仅包含270万张图像。TREEOFLIFE-10M集成了现有的高质量数据集,如iNat21和BIOSCAN-1M。更重要的是,它包括来自生命百科全书的最新图像,该百科全书提供了TREEOFLIFE-10M的大部分数据多样性。TREEOFLIFE-10M中的每个图像都以其尽可能最好的分类层次以及生命树中更高的分类等级进行标记(参见图1和表3中的分类等级和标签示例)。TREEOFLIFE-10M能够训练BIOCLIP和未来的生物学基础模型。
  • BIOCLIP:生命之树的视觉基础模型。对于TREEOFLIFE-10M等大规模标记数据集,一种标准、直观的训练策略(如ResNet50和Swin Transformer等其他视觉模型所采用的)是使用监督分类目标,并从图像中学习预测分类指数。然而,这并没有认识到和利用分类学标签的丰富结构——分类群(taxa)不是孤立存在的,而是在一个全面的分类学中相互联系的。因此,通过普通监督分类训练的模型不能很好地推广到那些unseen分类群(不能支持零样本分类)。

相反,作者提出了一种新的策略,将CLIP风格的多模态对比学习与BIOCLIP丰富的生物分类学相结合。作者将从Kingdom到最远端的taxon rank“扁平化”为一个称为taxonomic name的字符串,并使用CLIP对比学习目标来学习将图像与其对应的分类名称相匹配。直观地说,这有助于该模型推广到看不见的分类群——即使模型没有看到某个物种,它也很可能学会了该物种属(genus)或科(family)的合理表示(见图1)。BIOCLIP还支持零样本分类法(开放词汇表)。作者进一步提出并证明了混合文本类型训练策略的有效性;通过在训练过程中混合不同的文本类型(例如,taxonomic vs. scientific vs. common),模型保留了taxonomic name的泛化能力,同时在测试时具有更大的灵活性。例如,即使下游用户只提供常见的物种名称,BIOCLIP仍然表现出色。
tab4

  • 表4:模型基准测试。

CLIP背景下的零样本和小样本场景

对于零样本,遵循与CLIP相同的程序(直接计算输入图像与候选文本的相似度就行)。对于小样本学习,遵循SimpleShot并使用nearest-centroid classifier。对于k-shot,首先对每个类的k个示例进行随机采样,并从预训练模型的视觉编码器中获得图像embedding。然后,计算 k 个嵌入的平均特征向量作为每个类的质心。数据集中剩下的所有示例都用于测试。在对每个质心和测试特征向量应用均值减法和L2归一化后,选择质心离测试向量最近的类作为预测类。作者用不同的随机种子重复每个实验5次,并在表4中报告平均准确度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1870883.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第30课 绘制原理图——放置网络标签

什么是网络标签? 我们在很多电路图中都能看到,为了让图纸更加简洁,并不是每一根导线都要确确实实地画出来。可以在导线悬空的一端添加一个名称标签,接着在另一根导线的悬空一端添加上一个同名的名称标签,那么就可以让…

1.回溯算法.基础

1.回溯算法 基础知识题目1.组合2.组合-优化3.组合总和|||4.电话号码和字母组合5.组合总和6.组合总和II7.分割回文串8.复原IP地址 基础知识 回溯法也可以叫做回溯搜索法,它是一种搜索的方式。回溯是递归的副产品,只要有递归就会有回溯 因为回溯的本质是穷…

【毛毛虫案例-重力 Objective-C语言】

一、接下来,我们给这个毛毛虫,添加一下重力 1.把我们之前的代码,复制粘贴一份儿,改个名字,叫做:17-毛毛虫案例-重力, 重力的话,实际上,就比较简单了啊,那我们重力的话,去添加的时候,我也要在外面,去添加, 重力的话,叫做啥,UIGravityBehavior,啊, UIGravity…

2024年度临沂市安全文化书画摄影展开幕

人海信息网山东讯 6月27日,2024年度临沂市安全文化书画摄影作品展,在临沂高新区隆重开幕。本次书画摄影展深入贯彻“以人为本,安全发展”的重要思想,立意高远,内涵丰富,思想深邃,承载着健康、幸…

【公开数据集获取】

Open Images Dataset https://www.youtube.com/watch?vdLSFX6Jq-F0

MySQL锁和使用

在MySQL中,锁用于控制并发访问,以保证数据的一致性和完整性。MySQL提供了多种类型的锁,包括表级锁、行级锁和页面级锁。以下是MySQL中各种锁的详细介绍及其使用方法: 1. 表级锁(Table Locks) 表级锁用于锁…

AI绘画Stable Diffusion 超强一键去除图片中的物体,免费使用!

大家好,我是设计师阿威 在生成图像时总有一些不完美的小瑕疵,比如多余的物体或碍眼的水印,它们破坏了图片的美感。但别担心,今天我们将介绍一款神奇的工具——sd-webui-cleaner,它可以帮助我们使用Stable Diffusion轻…

简易深度学习(1)深入分析神经元及多层感知机

一、神经元 单个神经元结构其实可以认为是一个线性回归模型。例如下图中 该神经元输入为三个特征(x1,x2,x3),为了方便理解,大家可以认为每条线上都有一个权重和特征对应(w1,w2&…

62.指针和二维数组(2)

一.指针和二维数组 1.如a是一个二维数组,则数组中的第i行可以看作是一个一维数组,这个一维数组的数组名是a[i]。 2.a[i]代表二维数组中第i行的首个元素的地址,即a[i][0]的地址。 二.进一步思考 二维数组可以看作是数组的数组,本…

算法入门:二分查找及其Java实现

在程序开发中,算法是解决问题的核心。本篇博客将详细讲解一种高效的查找算法——二分查找,并通过Java代码示例帮助你理解其实现和应用。 如果你觉得这篇文章对你有帮助,不要忘记点赞、收藏和关注我,这将是对我最大的支持和鼓励&am…

Vue.js中的虚拟DOM

一.节点和状态 在我们平常对DOM操作的时候,之前在vue没有诞生之前,以命令式的方式对DOM进行操作,页面上的每一个元素都可以看做成一个节点状态。 二.剔除和渲染 框架都有自己渲染的方式,假设一个页面的状态,随着Ajax请求的放松,状态发生改变,有以下的两种方式供你选择&#…

CVE-2024-37032漏洞预警:尽快升级Ollama

实时了解业内动态,论文是最好的桥梁,专栏精选论文重点解读热点论文,围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)…

生成随机函数f3,利用f3生成f18(python)

一、题目 给定一个完全随机函数f3。能够完全随机产生1~3之间任意一个自然数。现在要构造一个f18,让其能随机产生1~18之间任意一个自然数,要求写出f18的函数,另外要测试是否符合预期,f18要用f3 二、代码 欢迎大家给我更优解&…

python 识别图片点击,设置坐标,离设置坐标越近的优先识别点击

import pyautogui import cv2 import numpy as np import mathdef find_and_click(template_path, target_x, target_y, match_threshold0.8):"""在屏幕上查找目标图片并点击。Args:template_path: 目标图片的路径。target_x: 预设的坐标 x 轴值。target_y: 预设…

Jenkins教程-10-发送飞书测试报告通知

上一小节我们学习了发送企业微信测试报告通知的方法,本小节我们讲解一下发送飞书测试报告通知的方法。 1、自动化用例执行完后,使用pytest_terminal_summary钩子函数收集测试结果,存入本地status.txt文件中,供Jenkins调用 conft…

计算机视觉-期末复习-简答/名词解释/综合设计

目录 第一讲--计算机/机器视觉概述 名词解释 简答 第二讲--图像处理概述 名词解释 简答 第三讲没划重点习题 第四讲--特征提取与选择 名词解释 简答 综合题 第五讲--不变特征 名词解释 简答 第六讲--物体分类与检测 简答 综合题 第七讲--视觉注意机制 简答 …

大数据------JavaWeb------MyBatis(完整知识点汇总)

MyBatis MyBatis简介 定义 它是一款优秀的持久层框架,用于简化JDBC开发它原来是Apache的一个开源项目iBatis,后来改名为MyBatis中文官网:https://mybatis.org/mybatis-3/zh_CN/index.html JaveEE三层架构 表现层(做页面展示&…

零知识证明基础:对称加密与非对称加密

1、绪论 在密码学体系中,对称加密、非对称加密、单向散列函数、消息认证码、数字签名和伪随机数生成器被统称为密码学家的工具箱。其中,对称加密和非对称加密主要是用来保证机密性;单向散列函数用来保证消息的完整性;消息认证码的…

ODYSSEE加速电机仿真优化

由于对低碳社会的强烈需求,电动汽车(EV)和混合动力汽车(HEV)的数量正在迅速增长。新能源汽车的主要部件是电池、逆变器和电机。电机市场的规模也将不断扩大。为了提高EV的性能,对电机设计工程师的要求越来越高。 除了EV市场,协作机器人市场也…

VMware 最新的安全漏洞公告VMSA-2024-0013

#深度好文计划# 一、摘要 2024年6月26日,VMware 发布了最新的安全漏洞公告 VMSA-2024-0013,修复了 VMware ESXi 和 VMware vCenter 中的多个安全漏洞。 VMSA-2024-0013:VMware ESXi 和 vCenter Server 更新修正了多个安全性漏洞 &#xff…