CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习

news2024/12/26 21:40:48

不同于传统学术领域对期刊发表的重视,计算机界,尤其是机器学习、计算机视觉、人工智能等领域,顶级会议才是王道,无数「热门研究方向」、「创新方法」都将从这里流出。

作为计算机视觉乃至人工智能领域最具学术影响力的三大顶会之一,今年的国际计算机视觉与模式识别会议 (CVPR) 从会议规模到接受论文数量,都刷新了此前记录。

活动现场,图源:Dan Goldman

根据 CVPR 官方的最新公告,CVPR 2024 已经成为该会议历史上规模最大、参与人数最多的一届, 截止 6 月 19 日,现场参会人数已超过 1.2w 人。

图源:CVPR2024官方

此外,作为领先的计算机视觉盛会,CVPR 每年都会录用当前视觉领域的最新研究,在今年提交的 11,532 份有效论文中,2,719 篇论文被接收,与 CVPR 2023 相比,接收论文的数量提高 20.6%,而录用率却降低 2.2%。 这些数据表明,CVPR 2024 的热度、竞争激烈程度以及获奖论文的含金量均有所提升。

获奖论文数量,图源:php.cn

北京时间 6 月 20 日凌晨,CVPR 2024 正式公布了本届会议的最佳论文等奖项。据统计,本次共有 10 篇论文获奖,其中最佳论文 2 篇,最佳学生论文 2 篇,最佳论文提名 2 篇和最佳学生论文提名 4 篇。

BIoCLIP 获最佳学生论文,图源:CVPR2024官方

其中,「BIoCLIP: A Vision Foundation Model for the Tree of Life」被评为最佳学生论文。 对此,麻省理工学院计算机科学与人工智能实验室助理教授 Sara Beery 更是评价其作者和团队为「当之无愧」的获奖者,论文第一作者 Samuel Stevens 第一时间在平台上表示了感谢。

Sara Beery 在社交平台评价 BIoCLIP 团队当之无愧

HyperAI超神经将从数据集、模型架构、模型性能等方面,全面解读「BIoCLIP: A Vision Foundation Model for the Tree of Life」,并为大家汇总整理了一作 Sam Stevens 的其他成果。

论文下载地址:
https://arxiv.org/pdf/2311.18803

创建最大、最多样化的生物图像数据集

目前最大的机器学习生物图像数据集是 iNat21,包含 270 万张图像,覆盖 1 万个物种。尽管,与 ImageNet-1k 等通用领域数据集相比,iNat21 的分类广度有极大提升,但对于生物学而言,1 万个物种仍是凤毛麟角。国际自然保护联盟 (IUCN) 在 2022 年就报告了超过 200 万个已知物种,仅鸟类和爬行动物就分别超过 1 万个物种。

针对生物图像数据集物种类别限制的问题,研究人员构建了一个包含 1,000 万张图像的数据集 TreeOfLife-10M, 跨越 450K+ 物种,在数据集规模和物种多样性方面完成了革命性突破。

TreeOfLife-10M 中 108 个门类的树状图不同颜色代表不同的门类,方框大小代表样本的相对数量

该数据集结合了 iNaturalist、 BIOSCAN-1M 和生命百科全书 (Encyclopedia of Life, EOL) 中的生物图像。

TreeOfLife-10M 的数据来源

除了 iNat21 所覆盖的 1 万个物种类别外,研究人员从 EOL 下载了 660 万张图像,将 TreeOfLife-10M 扩展到覆盖额外的 44 万种分类群。同时,为了帮助基础模型学习昆虫的极细粒度视觉表征,研究人员还纳入了 BIOSCAN-1M,这是一个包含 100 万张实验室昆虫图像的最新数据集,覆盖 494 个不同的科、7,831 种物种分类。

TreeOfLife-10M 下载地址:
https://go.hyper.ai/Gliol

多模态模型 BioCLIP:基于 CLIP 提升泛化能力

与通用任务相比,生物学计算机视觉的标注空间 (label space) 更加丰富,不仅分类标注数量庞大,且标注在层级分类系统中相互连接,这无疑为训练高物种覆盖率、强泛化能力的基础模型带来了巨大挑战。

借助生物学数百年研究所积累的经验,研究人员认为,如果基础模型能够成功编码标注空间的结构,那么即便没有见过某个特定物种,模型就可能已经能够识别其所对应的属 (genus) 或科 (family) 并给出相应的表征,而这种层级表征 (hierarchical representation) 将有助于实现新分类群的少样本、甚至零样本学习。

基于此,研究人员选择了 OpenAI 开发的多模态模型架构 CLIP,并利用 CLIP 的多模态对比学习目标在 TREEOFLIFE-10M 上持续进行预训练。

具体而言,CLIP 对视觉编码器和文本编码器这两种单模态嵌入模型进行训练,从而最大化正对 (positive pairs) 之间的特征相似性,最小化负对 (negative pairs) 之间的特征相似性,其中正对来自训练数据,负对是 batch 中所有其他可能的配对。

BioCLIP 训练中的文本类型

此外,CLIP 的一个重要优势便是其文本编码器接受自由形式的文本,恰恰能够应对生物学领域多样化的类名格式问题。针对该研究中的文本形式,研究人员主要考虑了:

*** 分类名称 (Taxonomic name):** 标准的七级生物分类从高到低依次为界 (Kingdom)、门 (Phylum)、纲 (Class)、目 (Order)、科 (Family)、属 (Genus)、种 (Species)。对于每个物种,通过将从根到叶的所有标注连接成一个字符串来「展平 (flatten)」分类系统,这个字符串就是分类名称。

*** 学名 (Scientific name):** 由属和种组成。

*** 通用名 (Common name.):** 分类名称通常是拉丁文,而在通用的图像-文本预训练数据集中不常见。相反,诸如「黑嘴喜鹊 (black-billed magpie)」这样的通用名称更为普遍。需要注意的是,通用名称与分类群之间可能并不是一对一映射关系,一个物种可能有多个通用名称,或者同一个通用名称可能指多个物种。

在实际应用中,可能只有一种类型的标注输入,为了在推理时提高灵活性,研究人员提出了一种混合文本类型训练策略, 即在每个训练步骤中,将每个输入图像与从所有可用文本类型中随机抽取的文本配对。实验证明,这种训练策略不仅保持了分类名称的泛化优势,还在推理时提供了更多灵活性。

BioCLIP 识别过程

如上图 a 所示,两种不同植物 Onoclea sensibilis (d) 和 Onoclea hintonii (e) 的分类群或分类标签,除物种 (species) 外,完全相同。

上图 b 所示,文本编码器是一个自回归语言模型,能够自然编码 taxonomy 的分层表征 (hierarchical representations),其中的阶次表征 (order representation) Polypodiales 只能依赖于更高的阶次,从 Kingdom、Phylum 和 Class tokens 中吸收信息。这些分类标注 (taxonomic labels) 的分层表征被输入到标准的对比预训练目标中,并与图像表征 (d) 和 (e) 相匹配。

BioCLIP 和 CLIP 的预测示例

上图为 BioCLIP 和 CLIP 对鸟类 525、浮游生物、昆虫等五种的预测示例,正确标注为绿色,错误标注为红色。左侧一列为 BioCLIP 的正确预测。中间及右侧是 CLIP 错误标注但 BioCLIP 正确标注的图像。

BioCLIP 在零样本和少样本任务上表现出色

研究人员将 BioCLIP 与通用视觉模型进行了比较。结果显示 ,BioCLIP 在零样本和少样本任务中均表现出色,并且显著优于 CLIP 和 OpenCLIP, 在零样本和少样本任务中的平均绝对改善 (average absolute improvement) 分别为 17% 和 16%。内在分析进一步表明,BioCLIP 学习到了更细粒度的符合生命树的层次表示,解释了其卓越的泛化能力。

不同模型的零样本、一样本和五样本分类 top-1 准确率

具体而言,研究人员引入了一项新的评估任务「稀有物种 (RARE SPECIES)」,收集了世界自然保护联盟红色名录中的约 25K 个物种,这些物种被分类为近危、易危、濒危、极危或野外灭绝。研究人员在 EOL 数据集中,选取了至少有 30 幅图像的 400 个此类物种,然后将它们从 TreeOfLife-10M 中移除,创建了一个全新的稀有物种测试集, 每个物种有 30 幅图像。

对比结果如上图所示,BioCLIP 在零样本分类中明显优于基线 CLIP 模型以及 iNat21 训练的 CLIP 模型,尤其是在未见过的分类上(见 Rare Species 列)。

硕果累累,探索最佳 BioCLlP 背后的科研之道

「BioCLlP: A Vision Foundation Model for the Tree of Life」由美国俄亥俄州立大学、微软研究院、加州大学欧文分校、伦斯勒理工学院共同发布,论文的第一作者 Samuel Stevens 博士和通讯作者 Jiaman Wu 均来自俄亥俄州立大学。

尽管 Samuel Stevens 自谦地在其个人网页上描述自己「不是一个非常严肃对待自己的人」,但从他近几年丰硕的科研成果和不懈努力来看,他显然是一个严谨对待科研事业的人。

据了解,Samuel Stevens 从 2017 年开始,一直从事计算机方向的工作,多模态模型 BioCLlP 是他在 2023 年 12 月发布的一项研究成果,并于 2024 年 2 月被 CVPR 2024 接收。

事实上,类似 BioCLlP 等 computer vision 方向的工作只是他的研究方向之一,他的兴趣很广泛,也曾在 AI for crypto、various LLM projects 等领域展开了一系列研究。

例如,他曾参与的「MMMU:A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI」,提出了一个新基准 MMMU (大规模多任务语言理解), 作为目前业界最有影响力的大模型测评基准之一,MMMU 侧重于利用特定领域(科学、健康与医学、人文等)的知识进行高级感知和推理,要求多模态模型能够执行与专家面临的类似任务。

研究人员用其对 14 个开源 LMM 和专有 GPT-4V (ision) 进行了评估,发现即使是先进的 GPT-4V 也只达到了 56% 的准确率,这表明模型还有很大的改进空间。对此,研究人员表示,希望该基准能激励社区建立下一代多模态基础模型,以实现专家级人工通用智能。
MMMU: https://mmmu-benchmark.github.io

当然,他对科研的热情和开放态度也是他取得成功的关键要素。昨日,BioCLlP 被评为最佳学生论文的消息刚出来,Samuel Stevens 博士第一时间通过社交平台向外界表达了他的观点:「如果您想聊聊动物的计算机视觉、多模态基础模型或 AI for Science,请私信我!」

Samuel Stevens 在社交平台表达开放的态度

值得一提的是,Samuel Stevens 博士不仅在科研路上砥砺前行,亦不忘提携后进。他的个人网页上也分享着对初学者的建议:「如果你想开始机器学习和人工智能。或许可以从 Coursera 的机器学习课程和 Andrej Karpathy 的 Neural Networks : Zero to Hero 开始。这两门课程的质量都非常高,与其他免费资源相比,应该会提供很多价值。」

参考资料:
1. https://samuelstevens.me/#news

最后推荐一个活动!

扫码即可报名参与「Meet AI Compiler」技术沙龙第 5 期线下聚会↓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1846479.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【论文笔记】The Power of Scale for Parameter-Effificient Prompt Tuning

题目: The Power of Scale for Parameter-Effificient Prompt Tuning 来源: EMNLP 2021 模型名称: Soft-Prompt 论文链接: https://aclanthology.org/2021.emnlp-main.243/ 项目链接: https://github.com/google-research/prompt-tuning 核心:针对不同的任务设计不同…

基于STM32和人工智能的智能交通信号控制系统

目录 引言环境准备智能交通信号控制系统基础代码实现:实现智能交通信号控制系统 4.1 数据采集模块4.2 数据处理与分析4.3 控制系统4.4 用户界面与数据可视化应用场景:智能交通管理与优化问题解决方案与优化收尾与总结 1. 引言 随着城市化进程的加快&a…

16s功能注释--PICRUST2的安装及使用

文章目录 安装本地安装conda安装 使用一些报错 安装 本地安装 在github网址下载压缩包:https://github.com/picrust/picrust2/releases/tag/v2.5.2 解压后将bin目录设置到环境变量 conda安装 利用bioconda安装 conda create -n picrust2 -c bioconda -c conda-…

神经网络与模式识别课程报告-卷积神经网络(CNN)算法的应用

完整的神经网络与模式识别课程报告文档下载: https://wenku.baidu.com/view/393fbc7853e2524de518964bcf84b9d528ea2c92?aggId393fbc7853e2524de518964bcf84b9d528ea2c92&frcatalogMain_&_wkts_1718955412936 def get_information():方法名称: 获取资料或…

以餐厅为例,来谈谈VOC(客户之声)

VOC,即客户之声,是指通过收集和分析客户的反馈意见,了解他们的需求和期望,进而指导企业改进产品和服务。在餐厅经营中,VOC的应用不仅能够帮助餐厅了解顾客的口味偏好、用餐习惯,还能揭示服务流程中的不足和…

插件分析|Yaklang SQL Injection 检测启发式算法

背景 sqlmap作为一个老牌的成熟的SQL漏洞扫描工具,在SQL注入自动化检测领域独占一壁江山。而现在的SQL注入检测往往是通过被动扫描检出,再通过sqlmap或者手工注入的方式进行进一步的漏洞确认和利用。在这种情形下,我们就需要开发一款应用于被…

ATFX Connect四度加冕!荣膺2024最佳机构业务经纪商奖

近期,知名经纪商ATFX凭借在公益、科技、教育及媒体领域的一系列创新营销举措,掀起一波营销热潮,品牌联动效应显著。日前,ATFX又以实力而赢得一项新荣誉。全球知名媒体Holiston Media举办的2024环球金融大奖 (Global Forex Awards …

10个超好看的 404 页面(附源码)

今天来分享 10 个超好看的 404 页面,带动画效果。 代码:https://codepen.io/AsyrafHussin/pen/KxWRrK 代码:https://codepen.io/salehriaz/pen/erJrZM 代码:https://codepen.io/andrew-lawendy/pen/deOpMZ 代码:https…

如何减轻大语言模型中的幻觉?

ChatGPT、LLaMA 和 Mistral 等大型语言模型 (LLMs) 是强大的自然语言处理 (NLP) 工具,能够为各种应用生成流畅且连贯的文本。然而,他们也有一个主要缺点:他们倾向于产生幻觉,而这些事实或细节不受输入或现实世界的支持。这可能会导…

《传感器系列》温度传感器

温度传感器是一种能够测量温度并将温度信号转换为电信号或其他可输出信号的装置。 它在众多领域都有广泛应用,比如: - 工业生产: 用于监测生产过程中的温度,确保生产工艺的正常进行和产品质量的稳定。 - 智能家居: …

PCB设计中的via孔和pad孔

原文出自微信公众号【小小的电子之路】 在PCB设计过程中,经常会提到via孔和pad孔,下面就简单介绍一下二者的区别。 via称为过孔,主要起到电气连接的作用,用于网络在不同层的导线之间的连接。PCB设计中一般做盖油处理。 via孔 vi…

Kotlin 中的可见修饰符

Java 和 Kotlin 中的可见修饰符: Java:public、private、protected 和 default(什么都不写);Kotlin:public、private、protected 和 internal; 比较: 对于 public 修饰符:在 Java 和 Kotlin 中…

Linux网络 - 再谈、详谈UDP和TCP协议

文章目录 前言预备netstatpidofcat /etc/services 一、UDP协议UDP协议端格式UDP的缓冲区基于UDP的应用层协议 二、TCP协议1.TCP协议段格式确认应答(ACK)机制三次握手疑问1 最后一次客户端发给服务端的ACK请求怎么保证服务端能够收到? 四次挥手疑问2 为什么挥手是四次…

openssl 命令行生成密钥对,生成hash,PSS填充签名,校验

生成密钥对 openssl genpkey -algorithm RSA -out private_key.pem -pkeyopt rsa_keygen_bits:4096 openssl rsa -pubout -in private_key.pem -out public_key.pem将源文件data.txt生成hash值(sha-256) openssl dgst -sha256 -binary data.txt > d…

利用LabVIEW项目管理和组织LabVIEW应用程序

如何利用LabVIEW项目管理和组织LabVIEW应用程序,提供了关于文件定义、磁盘上的文件组织、LabVIEW项目浏览器、交叉链接和相关资源的建议。这些推荐在开发前就应建立,以确保应用程序能扩展到大量VIs并适应多开发者环境。 目录 定义和识别应用程序文件 磁…

第106天:权限提升-WIN 系统AD域控NetLogonADCSPACKDCCVE 漏洞

目录 案例一:WIN-域控提权-CVE-2014-6324 案例二:WIN-域控提权-CVE-2020-1472 案例三:WIN-域控提权-CVE-2021-42287 案例四:WIN-域控提权-CVE-2022-26923 案例一:WIN-域控提权-CVE-2014-6324 首先先部署域控 项目…

神经阻滞术——慢性腰痛、颈痛与关节痛治疗的新选择

北京精诚博爱医院所实施的神经阻滞术是一种针对患者局部疼痛治疗手段,通过向特定部位注射局麻药或其他特定药物,来暂时性地阻断神经传导,进而达到减轻或消除疼痛的目的。这种疗法在慢性腰痛、颈痛或关节痛等常见疼痛疾病的治疗中,…

案例分享:同为科技与军工项目合作

国防数字化建设发展,同为科技提供智能PDU电源管理器系列产品与服务 项目要求描述: 竖装智能PDU电源管理器 63A输入 2P空气开关 SNMP协议智能型表头 3米310平方阻燃A级线缆 监测总输入电压、总负载电流、总负载视在功率、有功功率、无功功率、总负载…

构建有效的财务规划合作伙伴关系

在这个日益注重分类、定义和正规化的时代,财务规划与分析作为企业环境中发展最快的功能之一,已经从典型的数据管理角色逐步演变成企业框架中必不可少的身份。与其他新兴趋势一样,财务规划也开始采用更加创新的理念来吸引高技能投资&#xff0…

每个程序员都要有 3 份收入!

见字如面,我是军哥! 现在这个就业环境,是真的冷,找工作也确实相比前几年难太多。 程序员人群要想没有收入危机,未来的生活压力,我的建议是一定要提前构建自己的三份收入! 哪三份收入呢&#xff…