2023年04月27日(星期四)11:00-12:00,由智源社区主办的「智源LIVE 第39期线上活动:X-Decoder&SEEM:从开放词库的图像理解到像素分割,如何用一个模型做N个任务理解M个模态本期活动将在线举办,「阅读原文」报名即可参加。
邹雪妍
邹雪妍就读于威斯康辛大学麦迪逊分校的博士研究生,主要研究兴趣为图像分割,多模态模型,以及大型语言和图像模型。
她的一作论文曾获*BMVC最佳论文奖*,也有多篇论文发表于CVPR, IJCV会议与期刊中。在学生期间,她曾在微软研究院,卡内基梅隆大学,字节跳动作为研究实习生工作学习。
个人主页
https://maureenzou.github.io/
X-Decoder&SEEM:
从开放词库的图像理解到像素分割
如何用一个模型做N个任务理解M个模态
随着大型语言模型 (GPT3, LLaMA) 和多模态 (CLIP, GPT4) 的发展,人工通用智能已经逐渐从想象走向落地,与此同时,对多模态的模型的研究也变的更加重要。过去有很多工作探索了开源词库的多模态的图像识别 (UniCL),理解 (FIBER),到物体识别(GLIP),图像分割 (OpenSeg),这些模型虽然都实现了多模态在不同任务上的理解,但是却不能实现用一个简单统一的模型完成多种任务。
我们在X-Decoder和SEEM中探索了如何统一多种任务和多个模态,使用同一个模型同一组参数理解多种任务和模态成为可能。
论文地址:https://arxiv.org/pdf/2304.06718.pdf
活动时间:4月27日(周四)11:00-12:00
活动形式:线上直播,扫描下方二维码报名或点击阅读原文报名