每日学术速递1.28

news2025/1/13 3:05:27

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

 

今天带来的arXiv上最新发表的3篇AI论文。

Subjects: cs.AI、cs.Cv

1.Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring

标题:重新审视基于CLIP的图像-视频知识转移的时间模型

作者: Ruyang Liu, Jingjia Huang, Ge Li, Jiashi Feng, Xinglong Wu, Thomas H. Li

文章链接:https://arxiv.org/abs/2301.11116v1

摘要:

        图像-文本预训练模型,例如CLIP,已经显示出从大规模图像-文本数据对中学习到的令人印象深刻的通用多模式知识,因此它们在改善视频领域的视觉表征学习方面的潜力引起了越来越多的关注。在本文中,基于CLIP模型,我们重新审视了图像到视频知识转移背景下的时间建模,这是扩展图像-文本预训练模型到视频领域的关键点。我们发现,目前的时间建模机制要么是针对高层次的语义主导任务(如检索),要么是针对低层次的视觉模式主导任务(如识别),而不能同时适用于这两种情况。关键的困难在于对时间依赖性进行建模,同时利用CLIP模型中的高层和低层知识。为了解决这个问题,我们提出了空间-时间辅助网络(STAN)--一个简单而有效的时间建模机制,将CLIP模型扩展到不同的视频任务。具体来说,为了实现低层次和高层次的知识转移,STAN采用了一个带有分解的空间-时间模块的分支结构,使多层次的CLIP特征能够被空间-时间背景化。我们在两个有代表性的视频任务上评估我们的方法。视频-文本检索和视频识别。广泛的实验证明了我们的模型在各种数据集上比最先进的方法优越,包括MSR-VTT、DiDeMo、LSMDC、MSVD、Kinetics-400和Something-V2。

代码将在https://github.com/farewellthree/STAN

Image-text pretrained models, e.g., CLIP, have shown impressive general multi-modal knowledge learned from large-scale image-text data pairs, thus attracting increasing attention for their potential to improve visual representation learning in the video domain. In this paper, based on the CLIP model, we revisit temporal modeling in the context of image-to-video knowledge transferring, which is the key point for extending image-text pretrained models to the video domain. We find that current temporal modeling mechanisms are tailored to either high-level semantic-dominant tasks (e.g., retrieval) or low-level visual pattern-dominant tasks (e.g., recognition), and fail to work on the two cases simultaneously. The key difficulty lies in modeling temporal dependency while taking advantage of both high-level and low-level knowledge in CLIP model. To tackle this problem, we present Spatial-Temporal Auxiliary Network (STAN) -- a simple and effective temporal modeling mechanism extending CLIP model to diverse video tasks. Specifically, to realize both low-level and high-level knowledge transferring, STAN adopts a branch structure with decomposed spatial-temporal modules that enable multi-level CLIP features to be spatial-temporally contextualized. We evaluate our method on two representative video tasks: Video-Text Retrieval and Video Recognition. Extensive experiments demonstrate the superiority of our model over the state-of-the-art methods on various datasets, including MSR-VTT, DiDeMo, LSMDC, MSVD, Kinetics-400, and Something-Something-V2. Codes will be available at https://github.com/farewellthree/STAN

2.The Projection-Enhancement Network (PEN)

标题:投影增强网络(PEN)

作者: Christopher Z. Eddy, Austin Naylor, Bo Sun

文章链接:https://arxiv.org/abs/2301.10877v1

摘要:

        当代细胞科学中的实例分割方法根据实验和数据结构使用二维或三维卷积网络。然而,显微镜系统的限制或防止光毒性的努力通常需要记录次优的采样数据,这大大降低了这种三维数据的效用,特别是在对象之间有显著轴向重叠的拥挤环境中。在这种情况下,二维分割对细胞形态来说更可靠,也更容易进行注释。在这项工作中,我们提出了投影增强网络(PEN),这是一个新颖的卷积模块,它处理子采样的3D数据并产生2D RGB语义压缩,并与选择的实例分割网络一起训练以产生2D分割。我们的方法结合了增加细胞密度,使用低密度的细胞图像数据集来训练PEN,并通过策划数据集来评估PEN。我们表明,通过PEN,CellPose中学习到的语义表示对深度进行了编码,与作为输入的最大强度投影图像相比,大大提高了分割性能,但对基于区域的网络如Mask-RCNN的分割没有类似帮助。最后,我们剖析了PEN与CellPose在并排球状体的传播细胞上对细胞密度的分割强度。我们将PEN作为一个数据驱动的解决方案,以形成三维数据的压缩表示,改善实例分割网络的二维分割。

Contemporary approaches to instance segmentation in cell science use 2D or 3D convolutional networks depending on the experiment and data structures. However, limitations in microscopy systems or efforts to prevent phototoxicity commonly require recording sub-optimally sampled data regimes that greatly reduces the utility of such 3D data, especially in crowded environments with significant axial overlap between objects. In such regimes, 2D segmentations are both more reliable for cell morphology and easier to annotate. In this work, we propose the Projection Enhancement Network (PEN), a novel convolutional module which processes the sub-sampled 3D data and produces a 2D RGB semantic compression, and is trained in conjunction with an instance segmentation network of choice to produce 2D segmentations. Our approach combines augmentation to increase cell density using a low-density cell image dataset to train PEN, and curated datasets to evaluate PEN. We show that with PEN, the learned semantic representation in CellPose encodes depth and greatly improves segmentation performance in comparison to maximum intensity projection images as input, but does not similarly aid segmentation in region-based networks like Mask-RCNN. Finally, we dissect the segmentation strength against cell density of PEN with CellPose on disseminated cells from side-by-side spheroids. We present PEN as a data-driven solution to form compressed representations of 3D data that improve 2D segmentations from instance segmentation networks.

Subjects: cs.AI、cs.LG、cs.CE、cs.CL

1.Molecular Language Model as Multi-task Generator

标题:作为多任务发生器的分子语言模型

作者: Yin Fang, Ningyu Zhang, Zhuo Chen, Xiaohui Fan, Huajun Chen

文章链接:https://arxiv.org/abs/2301.11259v1

摘要:

        具有所需特性的分子生成,颠覆性地改变了科学家设计分子结构的方式,为化学和材料设计提供了支持,从而获得了巨大的人气。然而,尽管成果喜人,但以前基于机器学习的深度生成模型存在着对复杂的、特定任务的微调、有限维度的潜在空间或专家规则质量的依赖。在这项工作中,我们提出了MolGen,一个预训练的分子语言模型,可以有效地学习和分享多个生成任务和领域的知识。具体来说,我们用化学语言SELFIES对超过1亿个没有标签的分子进行了预训练。我们进一步提出在多个分子生成任务和不同的分子领域(合成和天然产品)中通过自我反馈机制进行多任务分子前缀调整。大量的实验表明,MolGen可以在著名的分子生成基准数据集上获得卓越的性能。进一步的分析表明,MolGen可以准确地捕捉分子的分布,隐含地学习它们的结构特征,并在多任务分子前缀调整的指导下有效地探索化学空间。代码、数据集和预训练模型将在https://github.com/zjunlp/MolGen。

Molecule generation with desired properties has grown immensely in popularity by disruptively changing the way scientists design molecular structures and providing support for chemical and materials design. However, despite the promising outcome, previous machine learning-based deep generative models suffer from a reliance on complex, task-specific fine-tuning, limited dimensional latent spaces, or the quality of expert rules. In this work, we propose MolGen, a pre-trained molecular language model that effectively learns and shares knowledge across multiple generation tasks and domains. Specifically, we pre-train MolGen with the chemical language SELFIES on more than 100 million unlabelled molecules. We further propose multi-task molecular prefix tuning across several molecular generation tasks and different molecular domains (synthetic & natural products) with a self-feedback mechanism. Extensive experiments show that MolGen can obtain superior performances on well-known molecular generation benchmark datasets. The further analysis illustrates that MolGen can accurately capture the distribution of molecules, implicitly learn their structural characteristics, and efficiently explore the chemical space with the guidance of multi-task molecular prefix tuning. Codes, datasets, and the pre-trained model will be available in this https https://github.com/zjunlp/MolGen.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/181905.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计讯物联5G工业级路由器在智慧消防的功能解析

据悉,国务院安全生产委员会印发《“十四五”国家消防工作规划》(以下简称《规划》),对“十四五”时期消防改革发展作出全面部署。《规划》提出,坚持防消一体、防救并重;加强改革创新,加快消防“…

11 Day : 编写操作系统中断程序,加快时钟

前言:昨天学习了中断,今天就废话不多说,直接编写程序吧 内容更新:之前有朋友说看不太懂我的代码写的是啥,能不能详细讲讲,所以本期开始我会详细讲解代码,也会同步更新之前的博客,大多…

java基础巩固-宇宙第一AiYWM:为了维持生计,做项目经验之~高速项目大数据及机器学习算法方面的思路总结~整起

原始项目可能主要的功能是接收下位机传送来的很多参数,然后将参数以不同形式表达出来,在此过程中会涉及到文件上传下载、excel表格导出…等,但是呢,这么多数据不玩一下岂不是太浪费。于是,额们决定这样来: 项目中有一个…

Metasploit工具使用(上)

Metasploit工具使用1.Metasploit简介1.1.Metasploit下载1.2.Metasploit框架结构1.2.1.框架路径1.2.2.框架内容介绍1.2.2.1.data目录文件1.2.2.2.modules目录文件1.2.2.3.scripts目录文件1.2.2.4.tools目录文件1.2.2.5.plugins目录文件1.3.Metasploit更新2.MSF中数据库设置2.1.数…

动态与静态函数库的的使用 和 区别 及 优缺点

这里写目录标题初识静态库与动态库静态函数库动态函数库初识静态库与动态库 静态函数库与动态函数库的使用中,有人也把他称为程序的静态链接及动态链接。 静态链接:指程序链接时使用静态库的链接方式,把所有需要的库函数加入(拷贝…

Vue3商店后台管理系统设计文稿篇(七)

记录使用vscode构建Vue3商店后台管理系统,这是第七篇,主要记录系统登录页面的创建过程,包含完整vue登录页面代码;Vuex的相关知识以及具体的使用,对state中值得获取,修改,异步修改,分…

Gradle学习笔记之Hook生命周期

简介 Gradle生命周期中的hook(钩子)函数是由gradle自动回调的,可以用来帮助我们实现一些功能: Gradle在生命周期各个阶段都提供了用于回调的钩子函数: Gradle初始化阶段: 在settings.gradle执行完后,会回调Gradle对…

2022爱分析・智能客服厂商全景报告 | 爱分析报告

报告编委 张扬 爱分析联合创始人&首席分析师 文鸿伟 爱分析高级分析师 王鹏 爱分析分析师 目录 研究范围定义厂商全景地图市场分析与厂商评估入选厂商列表研究范围定义 研究范围 在数字化快速发展的大背景下,随着消费人群及其消费意识的转变,客户对…

亚马逊云科技凭借多年云业务经验,协同合作伙伴快速展开生态化创新

在过去的两周里,ChatGPT的热度居高不下,引发全网讨论。虽然AlphaGo这类AI产品也曾引起热议,但是在应用层面终究还是离用户太远了。而ChatGPT更像是「民用级」的产品,真正意义上让AI技术跨入广泛破圈应用时代。在当下,机…

大数据-Hive

第1章 Hive入门 1.1 什么是Hive 1)Hive简介 Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 2)Hive本质 Hive是一个Hadoop客户端,用于…

springboot项目解决@ResponseBody注解返回xml格式数据而不是json格式的问题

目录 1.说明 2.解决 1.说明 一般情况下,RestController中的接口默认响应数据格式都是 json 格式的数据,但有时候使用某些依赖包,会影响ResponseBody的响应数据类型为xml格式, 例: 2.解决 但我们希望响应数据格式是…

使用腾讯云服务器+Nonebot2+go-cqhttp搭建QQ聊天机器人

文章目录一、查看conda版本二、查看系统版本三、配置go-cqhttp1.请切换至同一网络下扫码2.打包Docker镜像四、创建NoneBot环境安装脚手架一、查看conda版本 二、查看系统版本 uname -a arch getconf LONG_BIT三、配置go-cqhttp 下载go-cqhttp 这里有不同版本的cqhttp,并且对…

【数据结构】——如何设计一个链表?(设计链表)

本文主题:通过一道题目,学习链表的基本操作 更多算法:动态规划 ✔️ 边界控制 我的主页:蓝色学者的主页 文章目录一、前言二、题目信息三、解决方案3.0什么是链表?3.1节点的概念虚拟头节点3.2链表创建3.3头插/尾插3…

JUC面试(十三)——锁膨胀

锁膨胀 monitor概念 Monitor是 Java中用以实现线程之间的互斥与协作的主要手段,它可以看成是对象或者 Class的锁。每一个对象都有,也仅有一个 monitor。上面这个图,描述了线程和 Monitor之间关系,以及线程的状态转换图。 进入区…

windows11 永久关闭windows defender的方法

1、按键盘上的windows按键,再点【设置】选项。 2、点击左侧菜单的【隐私和安全性】,再点击列表的【Windows安全中心】选项。 3、点击界面的【病毒和威胁保护】设置项。 4、病毒保护的全部关闭 5、别人的图(正常是都开着的) 6、终极…

为什么看上去很简单的智慧功能点要价上千万?

人工智能(Artificial Intelligence,AI)已经不是什么新概念,第三次浪潮于2016年AlphaGo战胜李世石为标志正式开启,至今也已经走过6个年头。 发展至今,AI已经进入老百姓的日常生活,比如随处可见的…

【C语言】从0到1带你学会文件版动态通讯录

🌇个人主页:平凡的小苏 📚学习格言:别人可以拷贝我的模式,但不能拷贝我不断往前的激情 🛸C语言专栏:https://blog.csdn.net/vhhhbb/category_12174730.html 小苏希望大家能从这篇文章中收获到许…

初学者试试,HarmonyOS应用开发者基础认证

一些初学HarmonyOS应用开发的同学往往不知道如何开始,建议先试试《HarmonyOS应用开发者基础认证》,基础认证是华为进一步大范围布局推广“鸿蒙世界”的新举措。也是初学者开启鸿蒙世界的一把钥匙。 【说说鸿蒙世界】 相信大家已经对鸿蒙不陌生了&#x…

IDEA新建js项目和执行js脚本

一)、安装Node.js具体操作参考:https://blog.csdn.net/xijinno1/article/details/128774375二)、IDEA中新建js项目(hello world)1.按照下图,新建js项目2.选中示例代码文件后点击运行->运行3.选择【编辑配置】4.更新一下节点解释器(nodejs.exe),点击运…

界面组件DevExpress WPF v22.2 - Windows 11暗黑主题发布

DevExpress WPF拥有120个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…