每日学术速递5.2

news2024/11/24 10:27:53

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.DataComp: In search of the next generation of multimodal datasets

标题:DataComp:寻找下一代多模态数据集

作者:Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman

文章链接:https://arxiv.org/abs/2304.14108

项目代码:https://github.com/mlfoundations/datacomp

摘要:

        大型多模态数据集在最近的突破中发挥了重要作用,例如 CLIP、Stable Diffusion 和 GPT-4。同时,数据集很少受到与模型架构或训练算法相同的研究关注。为了解决机器学习生态系统中的这一缺点,我们引入了 DataComp,这是一种基准,其中训练代码是固定的,研究人员通过提出新的训练集来进行创新。我们为数据集实验提供了一个测试平台,该实验以来自 Common Crawl 的 12.8B 图像文本对的新候选池为中心。我们基准测试的参与者设计新的过滤技术或管理新的数据源,然后通过运行我们标准化的 CLIP 训练代码并在 38 个下游测试集上进行测试来评估他们的新数据集。我们的基准测试由多个尺度组成,具有四个候选池大小和相关的计算预算,范围从训练期间看到的 12.8M 到 12.8B 个样本。这种多尺度设计有助于研究尺度趋势,并使具有不同资源的研究人员可以访问基准。我们的基线实验表明,DataComp 工作流是改进多模态数据集的一种很有前途的方法。我们介绍了 DataComp-1B,这是一个通过对 12.8B 候选池应用简单过滤算法创建的数据集。由此产生的 1.4B 子集使 CLIP ViT-L/14 能够在 ImageNet 上从头开始训练到 79.2% 的零样本准确率。我们新的 ViT-L/14 模型比在 LAION-2B 上训练的更大的 ViT-g/14 高出 0.7 个百分点,同时需要的训练计算减少 9 倍。我们的表现也比 OpenAI 的 CLIP ViT-L/14 高出 3.7 个百分点,它是使用与我们的模型相同的计算预算进行训练的。这些收益突出了通过精心策划训练集来提高模型性能的潜力。我们将 DataComp-1B 视为第一步,并希望 DataComp 为下一代多模式数据集铺平道路。

2.Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model

标题:使用指令调整的 LLM 和潜在扩散模型生成文本到音频

作者:Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria

文章链接:https://arxiv.org/abs/2304.13731

项目代码:https://github.com/declare-lab/tango

摘要:

        最近大型语言模型 (LLM) 的巨大规模允许许多有趣的特性,例如基于指令和思想链的微调,这在许多自然语言处理中显着提高了零样本和少样本性能(NLP) 任务。受这些成功的启发,我们采用这种指令调优的 LLM Flan-T5 作为文本编码器,用于文本到音频 (TTA) 生成——目标是根据文本描述生成音频的任务。TTA 的先前工作要么预训练联合文本音频编码器,要么使用非指令调优模型,例如 T5。因此,尽管在小 63 倍的数据集上训练 LDM 并保持文本编码器冻结。这种改进也可能归因于采用基于音频压力水平的混音来增强训练集,而之前的方法采用随机混音。

3.ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System

标题:ChatVideo:以 Tracklet 为中心的多模态多功能视频理解系统

作者:Junke Wang, Dongdong Chen, Chong Luo, Xiyang Dai, Lu Yuan, Zuxuan Wu, Yu-Gang Jiang

文章链接:https://arxiv.org/abs/2304.14407

项目代码:https://www.wangjunke.info/ChatVideo/

摘要:

        现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system。我们的系统建立在以 tracklet 为中心的范例之上,它将 tracklet 视为基本视频单元,并使用各种视频基础模型 (ViFM) 来注释它们的属性,例如外观、运动等。所有检测到的轨迹都存储在数据库中,并通过数据库管理器与用户交互。我们对不同类型的野外视频进行了广泛的案例研究,证明了我们的方法在回答各种视频相关问题方面的有效性。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/494569.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【JAVA模块六------ 综合案例基础巩固】

JAVA模块六------ 综合案例基础巩固 1 逢7跳过2 数组元素求和3 判断两个数组的内容是否相同4 查找某个数组元素索引5 数组元素反转输出:(逆序输出)6 评委打分7 随机产生验证码其他:方法抽取: 1 逢7跳过 要求&#xff1…

国产光伏仪器 6581太阳能电池板伏安特性测试仪

6581太阳能电池板伏安特性测试仪主要用于太阳能电池板生产的最终测试,也可以作为层压前测试使用,能大大提高一次封装成品率。该测试仪适合于单晶、多晶、薄膜等多种电池组件,可进行I-V曲线、P-V曲线、短路电流、开路电压、峰值功率等全部参数…

Hive SQL on Flink 构建流批一体引擎

摘要:本文整理自阿里巴巴开发工程师罗宇侠、阿里巴巴开发工程师方盛凯,在 Flink Forward Asia 2022 流批一体专场的分享。本篇内容主要分为五个部分: 1. 构建流批一体引擎的挑战 2. Hive SQL on Flink 3. 流批一体引擎的收益 4. Demo 5. 未来…

做到“有效沟通”,帮你达到这3个目的

在项目管理中,团队沟通是至关重要的。团队成员之间应该建立良好的沟通机制,及时沟通和协调问题,避免出现问题后甩锅的情况。 在实际项目中,很多问题出现的原因是团队沟通不畅,项目经理需要加强团队沟通的重要性&…

K8S二进制安装报错及各个组件功能介绍

目录 一、K8S安装二、安装时遇到的几个问题2.1、Unable to connect to the server: x509: certificate signed by unknown authority (possibly because of "crypto/rsa: verification error" while trying to verify candidate authority certificate "kuberne…

C语言复习笔记2

1.变量命名只能以数字、字母、下划线组成并且不能以数字开头。 #include<stdio.h> #include<unistd.h>//变量名只能由数字字母下划线组成&#xff0c;不能以数字开头 int main() {//int 2b;return 0; }2.内存中保存的是补码 0的补码取反得补码再求源码是-1。 源码…

提升论文影响力的方法

论文发表后&#xff0c;还有一些重要的工作去做&#xff0c;那就是去积极宣传和推广自己的论文&#xff0c;提高自己论文的影响力。这类似于一个电影上映后&#xff0c;主演们还得去做宣传一样&#xff0c;要想办法推销自己的作品。本文将介绍提升论文影响力的方法。 1. 开源数…

xray简单使用指南

前言收到需求如下 用户还需要一个报告 询问了群里的小伙伴推荐使用xray进行扫描 一、下载 https://github.com/chaitin/xray/releases windows下载amd64即可 解压后进入其目录下执行exe程序&#xff0c;帮我们生成一些yaml文件 生成 ca 证书 .\xray_windows_amd64.exe g…

创客匠人:五月,爱成长的力量,有爱必赢

2023年5月4日&#xff0c;创客匠人第六十九届铁军训练营在厦门举办&#xff0c;由创客匠人CEO蒋洪波、CSO张潇峰及HRM何巧婷为厦门总部的伙伴们带来精彩的回顾总结及主题分享。 一、四月总结 为了明确前进奋斗的方向&#xff0c;进一步提升团队战斗力&#xff0c;从而更好地帮助…

Altium Designer中如何在顶层中添加对应端口

转载说明&#xff1a; 大众深度科普 https://jingyan.baidu.com/article/c33e3f4889f327ea15cbb584.html 版权归原作者所有&#xff1b;感谢原作者的分享&#xff1b; 转载到此&#xff0c;主要为了后期查看方便&#xff1b; 本经验简要介绍Altium Designer中如何在顶层中添…

SpringBoot【开发实用篇】---- 热部署

SpringBoot【开发实用篇】---- 热部署 1. 手动启动热部署2. 自动启动热部署3. 参与热部署监控的文件范围配置4. 关闭热部署 什么是热部署&#xff1f;简单说就是你程序改了&#xff0c;现在要重新启动服务器&#xff0c;嫌麻烦&#xff1f;不用重启&#xff0c;服务器会自己悄悄…

人类创新发展的四个阶段:三个核心和一个扩展

纵观人类的发展史&#xff0c;始终伴随着人类的创新过程&#xff0c;这也是人类与其他生物体的最大的区别&#xff0c;别的生物体也就是可以使用工具或者模仿别的生物的动作来制造简单的工具&#xff0c;对工具进行简单的拼接&#xff0c;只有人类是可以进行真正的创造出这个自…

记录-Symbol学习笔记

这里给大家分享我在网上总结出来的一些知识&#xff0c;希望对大家有所帮助 Symbol是JavaScript中的原始数据类型之一&#xff0c;它表示一个唯一的、不可变的值&#xff0c;通常用作对象属性的键值。由于Symbol值是唯一的&#xff0c;因此可以防止对象属性被意外地覆盖或修改。…

Word下划线怎么打?速速get这5个实用方法!

案例&#xff1a;Word下划线怎么打&#xff1f; 【朋友们&#xff0c;最近在写毕业论文&#xff0c;封面文字的下划线打了好久都打不出来&#xff0c;请问大家Word下划线是怎么打的呀&#xff1f;】 在Microsoft Word中&#xff0c;打下划线是一种常见的操作&#xff0c;它可…

Python小姿势 - ## Python与数据库

Python与数据库 简介 当今&#xff0c;数据库是计算机应用中最重要的部分。几乎所有的大型应用都要用到数据库&#xff0c;比如银行、电商、航空、政府、医疗、教育、科研等。数据库的目的是存储数据&#xff0c;并且能够根据用户的需求提供数据。 数据库管理系统&#xff08;D…

QQ音乐银河音效技术实践——音乐重放效果的补偿与修饰

音效渲染是音频或音乐播放器最为重要的后处理模块之一。LiveVideoStackCon 2022 北京站邀请到腾讯音乐银河音效开发负责人——闫震海&#xff0c;为大家介绍银河音效在QQ音乐播放器中的创新应用&#xff0c;包括空间环绕效果和音效制作工具等内容。 文/闫震海 编辑/LiveVideoSt…

取代你的可能不是AI,而是比你更会使用AI的人

1、背景 从开始了解AI到现在已经1个月了&#xff0c;最明显的就是&#xff0c;产品层出不穷&#xff0c;以前只有技术人员才关系AI&#xff0c;现在各行各业都在关系AI&#xff0c;都希望通过它提高生产力和创造力&#xff1b; 在当今大数据和人工智能时代&#xff0c;职场和企…

MySQL基础(一)数据库概述

1. 为什么要使用数据库 持久化(persistence)&#xff1a;把数据保存到可掉电式存储设备中以供之后使用。大多数情况下&#xff0c;特别是企业级应用&#xff0c;数据持久化意味着将内存中的数据保存到硬盘上加以”固化”&#xff0c;而持久化的实现过程大多通过各种关系数据库…

Linux网络基础-2

在之前的网络基础博客中&#xff0c;我们对网络的基本概念进行了一个简单的介绍&#xff0c;那么接下来的网络内容中&#xff0c;我们将对网络通信中的典型协议进行详细解释。 我们根据网络协议中的分层来对典型协议进行注意介绍&#xff0c;不过对于物理层的传输我们不做考究…

docker安装mongodb出现bash: mongo: command not found

安装MongoDB容器 -e MONGO_INITDB_ROOT_USERNAME创建管理员账号 -e MONGO_INITDB_ROOT_PASSWORD123456创建密码 映射容器服务的 27017 端口到宿主机的 27017 端口 docker run -d -p 27017:27017 --name mongodb -e MONGO_INITDB_ROOT_USERNAMEadmin -e MONGO_INITDB_ROOT_PAS…