每日学术速递6.10

news2024/7/4 15:07:03

 CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.Unifying (Machine) Vision via Counterfactual World Modeling 

标题:通过反事实世界建模统一(机器)视觉

作者:Daniel M. Bear, Kevin Feigelis, Honglin Chen, Wanhee Lee, Rahul Venkatesh, Klemen Kotar, Alex Durango, Daniel L.K. Yamins

文章链接:https://arxiv.org/abs/2306.01828

摘要:

        机器视觉领域的领先方法针对不同的任务采用不同的架构,并在昂贵的特定于任务的标记数据集上进行训练。这种复杂性阻碍了机器人技术等领域的进步,在这些领域,强大的任务一般感知仍然是瓶颈。相比之下,自然语言的“基础模型”已经表明,经过预训练的大型神经网络可以为范围广泛的明显不同的任务提供零样本解决方案。在这里,我们介绍了反事实世界建模 (CWM),这是一个构建视觉基础模型的框架:一个统一的、无监督的网络,可以提示执行各种视觉计算。CWM 有两个关键组成部分,它们解决了阻碍将基础模型概念应用于视觉的核心问题。第一个是结构化掩蔽,它是掩蔽预测方法的泛化,鼓励预测模型捕获视觉数据中的低维结构。因此,该模型将场景的关键物理组件分解为因素,并通过一小组视觉标记向它们公开接口。这反过来又使 CWM 的第二个主要思想成为可能——反事实提示——观察到许多明显不同的视觉表示可以以零样本的方式计算,通过比较预测模型对真实输入的输出与稍微修改(“反事实”)输入。我们展示了 CWM 为各种任务生成真实世界图像和视频的高质量读数,包括关键点估计、光流、遮挡、对象片段和相对深度。综上所述,我们的结果表明,CWM 是在概念上简单的基础上统一机器视觉的多方面分支的有前途的途径。

2.Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

标题:Video-LLaMA:一种用于视频理解的指令调优视听语言模型

作者:Hang Zhang, Xin Li, Lidong Bing

文章链接:https://arxiv.org/abs/2306.02858

项目代码:https://github.com/DAMO-NLP-SG/Video-LLaMA

摘要:

        我们介绍了 Video-LLaMA,这是一种多模态框架,它使大型语言模型 (LLM) 能够理解视频中的视觉和听觉内容。Video-LLaMA 从冻结的预训练视觉和音频编码器和冻结的 LLM 引导跨模态训练。与之前专注于静态图像理解的视觉 LLM(如 MiniGPT-4 和 LLaVA)不同,Video-LLaMA 主要解决视频理解中的两个挑战:(1)捕捉视觉场景中的时间变化,(2)整合视听信号。为了应对第一个挑战,我们提出了一个视频 Q-former,将预训练图像编码器组装到我们的视频编码器中,并引入视频到文本生成任务来学习视频语言对应关系。对于第二个挑战,我们利用 ImageBind,一种将多种模态对齐的通用嵌入模型作为预训练的音频编码器,并在 ImageBind 之上引入音频 Q-former 来为 LLM 模块学习合理的听觉查询嵌入。为了使视觉和音频编码器的输出与 LLM 的嵌入空间保持一致,我们在大量视频/图像字幕对以及数量适中但质量更高的视觉指令调整数据集上训练 Video-LLaMA。我们发现 Video-LLaMA 展示了感知和理解视频内容的能力,产生基于视频中呈现的视觉和听觉信息的有意义的响应。这凸显了 Video-LLaMA 作为视听 AI 助手的有前途原型的潜力。

3.PolyVoice: Language Models for Speech to Speech Translation

标题:PolyVoice:语音到语音翻译的语言模型

作者:Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian

文章链接:https://arxiv.org/abs/2306.02982

项目代码:https://speechtranslation.github.io/polyvoice/

 

摘要:

        我们提出了 PolyVoice,一种基于语言模型的语音到语音翻译 (S2ST) 系统框架。我们的框架由两种语言模型组成:翻译语言模型和语音合成语言模型。我们使用以完全无监督的方式生成的离散语音单元,因此我们的框架可用于非书面语言。对于语音合成部分,我们采用现有的 VALL-E X 方法,构建一个基于单元的音频语言模型。这使我们的框架能够保留原始语音的语音特征和说话风格。我们在中文 → 英语和英语 → 西班牙语对上检查我们的系统。实验结果表明,我们的系统可以生成具有高翻译质量和音频质量的语音。此 https URL 提供了语音样本。

 

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/669036.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LFS11.3在VMware安装后需要做的准备

参考lfs 11.3和Blfs 11.3 先简单罗列一下要做的步骤,后续有机会再补充一下细节,遇到问题欢迎读者留言。 1、配置vmware中的网络连接 使用vmware net8 net模式,选用VMnet 配置网络连接/etc/sysconfig/ 目录下ifconfig.*** (***为…

RK3588平台开发系列讲解(AI 篇)什么是RKNPU

文章目录 一、RKNPU的发展历史二、RKNPU单核架构三、RKNPU性能计算四、RKNPU应用场景沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇章主要讲解什么是RKNPU。 一、RKNPU的发展历史 二、RKNPU单核架构 三、RKNPU性能计算 NPU算力是指每秒可以处理的运算次数,通常…

基于Hata模型的BPSK调制信号小区覆盖模拟matlab完整程序分享

基于Hata信道模型的BPSK调制信号小区覆盖模拟matlab仿真,对比VoIP, Live Video,FTP/Email 完整程序: clc; clear; close all; warning off; addpath(genpath(pwd)); % Random bits are generated here. bits = randi([0, 1], [50,1]); M = 2; t = 1:1:50; trans = pskmod(bi…

支持硬件加速的opencv编译

背景 为了降低cpu的使用率提升系统的接入能力,需要将编解码模块移至GPU处理,opencv默认的发行版中不支持GPU加速,所以需要重新编译opencv使其支持GPU硬件加速。 读者 本文的读者须具备一定的Linux使用经验,如常规软件安装等操作…

扫雷小游戏【C语言】

目录 前言 一、基本实现逻辑 二、实现步骤 1. 我们希望在进入游戏时有一个菜单让我们选择 2. 我们希望可以重复的玩(一把玩完了还可以接着玩) 3. 采用多文件形式编程 4.要扫雷先得有棋盘(创建棋盘R*N) 5.初始化棋盘 6.打…

0014-TIPS-pawnyable : Double-Fetch pt_regs

原文 Linux Kernel PWN | 040302 Pawnyable之双取 Double Fetch 题目下载 漏洞代码 #include <linux/module.h> #include <linux/kernel.h> #include <linux/cdev.h> #include <linux/fs.h> #include <linux/uaccess.h> #include <linux/sl…

chatgpt赋能python:Python搜索本地文件指南

Python搜索本地文件指南 在进行开发或者日常使用中&#xff0c;需要对本地的文件进行搜索操作是常见的需求。如果你正在学习Python编程&#xff0c;接下来的内容会为你提供一些如何使用Python进行本地文件搜索的指南。 搜索文件 在Python中搜索本地文件可以使用os模块。该模…

杂记 | 使用FRP搭建内网穿透服务

文章目录 01 需求场景02 项目地址03 文件介绍04 编写配置文件4.1 编写frps.ini4.2 编写frpc.ini 05 测试 01 需求场景 1、有一台云服务器&#xff0c;Linux&#xff08;CentOS7&#xff09;系统 2、云服务器有公网ip&#xff0c;公网可以访问 3、本地电脑是家用笔记本&#xf…

AN10833-MIFARE type identification procedure.pdf

1.2范围 本文档描述了如何区分MIFARE接口卡IC系列的成员。ISO/IEC 14443-3描述了类型A的初始化和防冲突程序&#xff0c;该程序为所有MIFARE卡提供卡类型信息。 MIFARE卡与ISO/IEC 14443-3兼容。因此&#xff0c;已经存在的应用可以很容易地扩展到分别使用较新的MIFARE芯片和所…

017、数据库管理之监控

监控工具 TiDB数据库的监控体系TiDB Dashboard数据库监控系统数据流转监控系统访问地址 报警系统报警级别指标系统常用监控指标Service Port Status 常用监控指标PD的常用监控指标TiDB-Server的常用监控指标TiKV 的常用监控指标Dashboard的常用指标 实验&#xff1a; 通过监控工…

Flink 学习六 Flink 窗口计算API

Flink 学习六 Flink 窗口计算API 1.窗口 (window)概念和分类 窗口 window 是处理无限流的核心就是把无界的数据流,按照一定的规则划分成一段一段的有界的数据流(桶),然后再这个有界的数据流里面去做计算; 2.分类体系 2.1 滚动窗口 相邻窗口之间是没有数据重合 window 大小…

Geocomputation (2)Attribute data operations

Geocomputation &#xff08;2&#xff09;Attribute data operations 属性数据操作 来源&#xff1a;https://github.com/geocompx/geocompy 1.准备 #| echo: false import pandas as pd import matplotlib.pyplot as plt pd.options.display.max_rows 6 pd.options.disp…

chatgpt赋能python:Python搜索函数:快速、高效的搜索利器

Python 搜索函数&#xff1a;快速、高效的搜索利器 如果你经常使用 Python 编程语言&#xff0c;那么你应该知道搜索数据集的重要性。用于搜索的函数在 Python 中是关键而常用的工具。Python 搜索函数是一种高效、快速的搜索利器&#xff0c;它可以让你轻松地找到你需要的数据…

C生万物 | 聊聊枚举与联合体的用法

文章目录 枚举1、枚举类型的定义2、枚举的使用3、枚举的优点 联合体1、联合体类型的定义2、联合体的特点3、联合体大小的计算一道经典面试题&#xff1a;判断当前计算机的大小端存储 总结与提炼 本文&#xff0c;我们就来谈谈C语言中的枚举和联合体&#xff0c;因为这两块知识点…

6月21日第壹简报,星期三,农历五月初四

6月21日第壹简报&#xff0c;星期三&#xff0c;农历五月初四坚持阅读&#xff0c;静待花开1. 中国LPR“对称降息”10个基点&#xff0c;房贷迎今年首次“降息”。2. 孟加拉国正式申请加入金砖国家&#xff0c;中方&#xff1a;欢迎更多伙伴早日加入金砖大家庭。3. 历时近2年波…

7、DuiLib动态创建控件

文章目录 1、动态创建控件2、纯代码方式动态创建控件3、基于构建好的 XML 动态创建控件&#xff08;CDialogBuilder&#xff09; 1、动态创建控件 在实际业务场景中&#xff0c;并不是所有界面元素都可以通过 XML 预先定义好的&#xff0c;有时候我们需要根据数据库或者服务器…

【计算机组成原理】主存储器

目录 一、存储体系基本概念 二、主存储器的基本组成 三、SRAM和DRAM 四、只读存储器ROM 五、主存储器与CPU的连接 六、双端口RAM和多模块存储器 一、存储体系基本概念 一个二进制位&#xff08;bit&#xff09;是构成存储器的最小单位&#xff1b;字节&#xff08;8bit&…

总结uwsgi的安装、配置与设置开机自启

一、uwsgi的安装与测试 1、uwsgi安装 pip install uwsgi# 查看uwsgi版本号 uwsgi –version 如果服务器安装anconda&#xff0c;有可能安装不上去&#xff0c;建议使用以下命令&#xff1a; conda install -c conda-forge uwsgi 2、测试uwsgi 创建test.py文件,并写下以下…

C++基础(2)——函数高级和函数对象

前言 本文主要介绍了C中函数高级相关的内容 3.1&#xff1a;函数默认参数 在函数定义的时候可以给形参赋初值&#xff0c;如果函数在调用的时候有传入参数&#xff0c;就使用传入的参数&#xff0c;如果没有就用默认的。 注意事项 1&#xff1a;如果某个参数有了默认值&…

Scilab安装与入门

说明&#xff1a;Scilab主要是用于信号处理&#xff0c;我本次用它来进行滤波仿真 地址&#xff1a; Scilab 2023.1.0 | Scilab https://www.scilab.org/download/scilab-2023.1.0 下载好了&#xff0c;进行安装看看 下一步&#xff0c;接受许可协议 选择安装路径到D盘下了…