每日学术速递5.21

news2025/1/18 13:59:29

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.Going Denser with Open-Vocabulary Part Segmenta

标题:通过开放式词汇部分分割变得更密集

作者:Peize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Ping Luo, Saining Xie, Zhicheng Yan

文章链接:https://rl-at-scale.github.io/assets/rl_at_scale.pdf

项目代码:https://rl-at-scale.github.io/

摘要:

        对象检测已经从有限的类别扩展到开放的词汇。展望未来,一个完整的智能视觉系统需要理解更细粒度的对象描述、对象部分。在本文中,我们提出了一种能够预测开放词汇对象及其部分分割的检测器。这种能力来自两种设计。首先,我们在部分级、对象级和图像级数据的联合上训练检测器,以构建语言和图像之间的多粒度对齐。其次,我们通过与基础对象的密集语义对应将新对象解析成它的部分。这两种设计使检测器能够在很大程度上受益于各种数据源和基础模型。在开放词汇部分分割实验中,我们的方法在 PartImageNet 的跨数据集泛化中优于基线 3.3 ∼ 7.3 mAP,在跨类别泛化中将基线提高 7.3 novel AP 50 在帕斯卡部分。最后,我们训练了一个检测器,它可以泛化到范围广泛的部分分割数据集,同时实现比特定于数据集的训练更好的性能。

2.CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training(ACL 2023)

标题:CLAPSpeech:通过对比语言-音频预训练从文本上下文中学习韵律

作者:Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao

文章链接:https://arxiv.org/abs/2305.10763

项目代码:https://clapspeech.github.io/

摘要:

        改进文本表示已经引起了很多关注,以实现富有表现力的文本到语音(TTS)。然而,现有作品仅通过掩码标记重建任务隐式学习韵律,导致训练效率低下且韵律建模困难。我们提出了 CLAPSpeech,这是一种跨模态对比预训练框架,可显式学习不同上下文下相同文本标记的韵律差异。具体来说,1)我们鼓励模型通过编码器输入和对比损失的精心设计,在联合多模态空间中将文本上下文与其相应的韵律模式联系起来;2) 我们引入了多尺度预训练管道来捕获多个级别的韵律模式。我们展示了如何将 CLAPSpeech 整合到现有的 TTS 模型中以获得更好的韵律。在三个数据集上的实验不仅表明 CLAPSpeech 可以改进现有 TTS 方法的韵律预测,而且还展示了其适应多种语言和多说话人 TTS 的泛化能力。我们还深入分析了 CLAPSpeech 性能背后的原理。消融研究证明了我们方法中每个组件的必要性。此 https URL 提供源代码和音频样本。

3.OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding

标题:OpenShape:将 3D 形状表示放大以实现对开放世界的理解

作者:Minghua Liu, Ruoxi Shi, Kaiming Kuang, Yinhao Zhu, Xuanlin Li, Shizhong Han, Hong Cai, Fatih Porikli, Hao Su

文章链接:https://arxiv.org/abs/2305.10764

项目代码:https://colin97.github.io/OpenShape/

摘要:

        我们介绍了 OpenShape,一种用于学习文本、图像和点云的多模态联合表示的方法。我们采用常用的多模态对比学习框架来进行表示对齐,但特别关注放大 3D 表示以实现开放世界 3D 形状理解。为实现这一目标,我们通过集成多个 3D 数据集来扩大训练数据,并提出了几种策略来自动过滤和丰富嘈杂的文本描述。我们还探索和比较了扩展 3D 骨干网络的策略,并引入了一种新的 hard negative 挖掘模块,以实现更高效的训练。我们在零样本 3D 分类基准上评估 OpenShape,并展示其在开放世界识别方面的卓越能力。具体而言,OpenShape 在 1,156 类 Objaverse-LVIS 基准测试中实现了 46.8% 的零样本准确率,而现有方法的准确率不到 10%。OpenShape 在 ModelNet40 上的准确率也达到了 85.3%,比之前的零样本基线方法高出 20%,与一些全监督方法的表现相当。此外,我们展示了我们学习到的嵌入编码了广泛的视觉和语义概念(例如,子类别、颜色、形状、样式),并促进了细粒度的文本 3D 和图像 3D 交互。由于它们与 CLIP 嵌入对齐,我们学习的形状表示也可以与现成的基于 CLIP 的模型集成,用于各种应用,例如点云字幕和点云条件图像生成。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/556645.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录算法训练营第十三天|239. 滑动窗口最大值、347.前 K 个高频元素

滑动窗口最大值 题目链接:力扣 知识点:单调队列 解题思路: 需要一个队列,放进去窗口里的元素,然后随着窗口的移动,队列也一进一出,每次移动之后,队列告诉我们里面的最大值是什么…

Java基础-Java常用类1(包装类 + Object类)

本篇文章主要讲解Java的常用类 包装类Object类 希望能对你的复习以及面试有帮助,有错误请指正 , 感谢. 目录 包装类 Object类 Object 类的常见方法有哪些? 对象比较(hashcode和equals方法) 和 equals() 的区别 hashCode() 是什么 ? 有什么用? 那…

【数据分享】中国首套10米分辨率的建筑高度数据(tif格式)

建筑是城市最重要的构成要素,高密度高层数的建筑是城市区别于乡村的显著特征!建筑数据也是我们在各项研究中都会使用到的数据!之前我们分享过2020年全国90个城市市域范围的建筑体块数据(可查看之前的文章获悉详情)。 …

Ubuntu2004设置共享开发环境

我们都知道Linux操作系统是一个多用户的操作系统,由于大家在实际工作中很少接触到多用户环境,特别是在目前电脑硬件成本不断降低的情况下几乎每个从事IT行业的人员都有一台甚至多台个人PC,因此大家对多用户的理解并不深刻。 ChatGPT引燃了人…

【数据结构】堆堆堆堆堆!

目录 前言 树 树的概念 树的相关概念​编辑 树的表示 二叉树的概念 特殊的二叉树 ​ 二叉树的存储结构 堆 堆的建立(本篇以小堆为例,大堆实现方法一样) 堆的结构定义 堆的初始化 堆的插入 堆的基础算法——向上调整算法 插入注意事项 堆的判…

Openai+Coursera: ChatGPT Prompt Engineering(三)

想和大家分享一下最近学习的Coursera和openai联合打造ChatGPT Prompt Engineering在线课程.以下是我写的关于该课程的前两篇博客: ChatGPT Prompt Engineering(一) ChatGPT Prompt Engineering(二) 今天我们来学习第三部分内容:推断(Inferring) 推断…

Android:IPC(进程间通信)机制

Android:IPC(进程间通信)机制 进程和线程 我们先来了解一些关于线程和进程基本的概念。 按照操作系统中的描述,线程是CPU调度的最小单元,同时线程是一种有限的系统资源。而进程一般指一个执行单元,在PC和…

(学习日记)AD学习 #2

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

npm ERR! code E404 在vscode安装插件时报错的解决方案

答主在配置commit代码提交规范时【即如下代码】遇到了以下问题 npm i cz-customizable6.3.0 --save-dev 出现了 npm ERR! code E404 npm ERR! 404 Not Found - GET https://registry.npmjs.org/vue%2fvue-loader-v15 - Not found npm ERR! 404 ……等报错情况 解决方案1 检查n…

SVN 导出改动差异文件

文章目录 SVN 导出改动差异文件应用场景/背景介绍具体操作方法 SVN 导出改动差异文件 应用场景/背景介绍 当然下面的两个场景介绍可能用分支管理都会有不错的效果,或者更优,只是记录一下思路,用什么还是看大家个人爱好啦 在开发过程中偶尔会…

nexus私服仓库maven-metadata.xml缺失导致的构建失败或者下载504

环境:maven项目,使用Nexus私服,jenkins实现代码的编译和打包。 问题分析思路:某周末前,jenkins上的编译打包任务一直正常工作,但周末后突然所有项目都编译失败,报错很一致都是Could not find a…

【牛客刷题专栏】0x30:JZ38 字符串的排列(C语言编程题)

前言 个人推荐在牛客网刷题(点击可以跳转),它登陆后会保存刷题记录进度,重新登录时写过的题目代码不会丢失。个人刷题练习系列专栏:个人CSDN牛客刷题专栏。 题目来自:牛客/题库 / 在线编程 / 剑指offer: 目录 前言问…

局域网与城域网 - ARP 地址解析协议

文章目录 1 概述2 ARP 地址解析协议2.1 工作过程2.2 报文格式2.3 ARP 命令 3 扩展3.1 网工软考真题 1 概述 #mermaid-svg-CQnNvTP8xFoJsztk {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-CQnNvTP8xFoJsztk .error-…

plt、fig、axes、axis的含义

plt import matplotlib.pyplot as plt figure,axes与axis 如果将Matplotlib绘图和我们平常画画相类比,可以把Figure想象成一张纸(一般被称之为画布),Axes代表的则是纸中的一片区域(当然可以有多个区域,这…

剑指 Offer - 字符串合辑

🍎道阻且长,行则将至。🍓 🌻算法,不如说它是一种思考方式🍀 算法专栏: 👉🏻123 题解目录 一、🌱[剑指 Offer 05. 替换空格](https://leetcode.cn/problems/t…

[笔记]C++并发编程实战 《二》线程管理

文章目录 前言第2章 线程管理2.1 线程管理的基础2.1.1 启动线程2.1.2 等待线程完成2.1.3 特殊情况下的等待2.1.4 后台运行线程2.2 向线程函数传递参数 前言 第2章 线程管理 本章主要内容 启动新线程等待线程与分离线程线程唯一标识符 好的!看来你已经决定使用多…

使用压缩包安装jdk多版本并能领过切换

使用压缩包安装jdk多版本并能领过切换 1.下载2.解压包到指定位置3.使用pdate-alternatives 进行版本切换管理3.1. jdk173.2. jdk1.8 3.切换版本4.解决JAVA_HOME环境变量识别的问题 1.下载 官网的下载地址: 下载地址: jdk17: jdk1.8在当前页面的下面: …

基于差分进化算法的微电网调度研究(Matlab代码实现)​

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

MAC突然打不开Notion,你遇到过这个问题吗?

目录 解决办法 为什么Notion会突然打不开呢? Notion是一款适合记录/规划的应用,而且页面简洁,模板强大,深得大家喜爱。我也经常在Notion上制定计划、记录学习笔记等。不过,今天突然打不开了,网页版、本地…

基于SpringBoot的生鲜管理系统的设计与实现

背景 困扰交易市场的许多问题当中,生鲜交易管理一定是交易市场不敢忽视的一块。但是管理好生鲜交易又面临很多麻烦需要解决,例如有几个方面:第一,生鲜市场往往人数都比较多,如何保证能够管理到每一个商家,如何在工作琐碎,记录繁多的情况下将生鲜交易的当前情况反应给领导相关部…