每日学术速递4.30

news2024/9/20 22:32:03

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Masked Frequency Modeling for Self-Supervised Visual Pre-Training(ICLR 2023)

标题:用于自监督视觉预训练的掩蔽频率建模

作者:Jiahao Xie, Wei Li, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen Change Loy

文章链接:https://arxiv.org/abs/2206.07706

项目代码:https://github.com/Jiahao000/MFM

摘要:

        我们提出了掩蔽频率建模 (MFM),这是一种基于频域的统一方法,用于视觉模型的自监督预训练。在本文中,我们没有将掩码标记随机插入到空间域的输入嵌入中,而是将视角转移到频域。具体来说,MFM 首先屏蔽掉输入图像的一部分频率分量,然后预测频谱上缺失的频率。我们的主要见解是,由于存在大量空间冗余,预测频域中的掩码分量更适合揭示底层图像模式,而不是预测空间域中的掩码块。我们的研究结果表明,通过正确配置掩码和预测策略,高频成分中的结构信息和低频对应物之间的低级统计信息都有助于学习良好的表示。MFM 首次证明,对于 ViT 和 CNN,即使不使用以下任何一种,一个简单的非 Siamese 框架也可以学习有意义的表示:(i)额外数据,(ii)额外模型,(iii)mask token。图像分类和语义分割的实验结果,以及几个鲁棒性基准测试表明,与最近的蒙版图像建模方法相比,MFM 具有竞争力的性能和先进的鲁棒性。此外,我们还从统一频率的角度全面研究了经典图像恢复任务对表示学习的有效性,并揭示了它们与我们的 MFM 方法的有趣关系。

Subjects: cs.LG

2.AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

标题:AudioGPT:理解和生成语音、音乐、声音和说话头

作者:Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang

文章链接:https://arxiv.org/abs/2304.12995

项目代码:https://github.com/AIGC-Audio/AudioGPT

摘要:

        大型语言模型 (LLM) 在各种领域和任务中展现出非凡的能力,挑战着我们对学习和认知的理解。尽管最近取得了成功,但目前的 LLM 无法处理复杂的音频信息或进行口头对话(如 Siri 或 Alexa)。在这项工作中,我们提出了一个名为 AudioGPT 的多模态 AI 系统,它通过 1) 基础模型来补充 LLM(即 ChatGPT),以处理复杂的音频信息并解决大量的理解和生成任务;2) 支持语音对话的输入/输出接口(ASR、TTS)。随着对评估人类意图理解和与基础模型合作的多模式 LLM 的需求不断增加,我们概述了原则和过程,并在一致性、能力和稳健性方面测试了 AudioGPT。实验结果证明了 AudioGPT 在解决 AI 任务方面的能力,包括在多轮对话中理解和生成语音、音乐、声音和说话的头部,这使人类能够前所未有地轻松创建丰富多样的音频内容。

Subjects: cs.CL

3.LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions

标题:LaMini-LM:来自大规模指令的各种提炼模型

作者:Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji

文章链接:https://arxiv.org/abs/2304.14402

项目代码:https://github.com/mbzuai-nlp/LaMini-LM

摘要:

        具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。除了规模庞大之外,我们还设计了涵盖广泛主题的说明以确保。对我们的指令数据的彻底调查证明了它们的多样性,我们使用 gpt-3.5-turbo 为这些指令生成响应。然后,我们利用这些指令来调整大量模型,称为 LaMini-LM,大小不一,来自编码器-解码器以及仅解码器系列。我们自动(在 15 个不同的 NLP 基准测试中)和手动评估我们的模型。结果表明,我们提出的 LaMini-LM 与竞争基线相当,但尺寸却小了近 10 倍。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/480822.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SwiftUI 设计和调试复杂界面的基本技巧示例

功能需求 对于比较复杂的 SwiftUI 界面,我们需要在充分了解 SwiftUI 各个视图基本特性的同时,合理利用 Xcode 强大的预览(Preview)机制,实时且全面的测试所有场景下的显示情况。 如上图所示:我们在 App 支持的每种语言环境中都对界面进行了全面的测试,并解决了 Cell 里…

使用Lambda表达式mutable有感

使用Lambda表达式mutable有感 在学Qt的时候,我看着mutable陷入了沉思,总觉得它和C中的某个特性很像?没错,就是 深拷贝 如果你忘记了深拷贝和浅拷贝是什么,那跟着我来一起回忆一下吧。首先来看深拷贝与浅拷贝的概念 浅…

从零开始学习Linux运维,成为IT领域翘楚(四)

文章目录 🔥Linux路径🔥Linux处理文件目录的常用命令🔥Linux文件编辑工具vi/vim🔥Linux文件内容查看命令 🔥Linux路径 路径,顾名思议,是指从树形目录中的某个目录层次到某个文件的一条道路。 Li…

设计模式-工厂、装饰模式

一. 设计模式-工厂模式 package com.factory.pattern;/**目标:工厂模式。什么是工厂设计模式?工厂模式(Factory Pattern)是 Java 中最常用的设计模式之一。这种类型的设计模式属于创建型模式,它提供了一种创建对象的方…

Spring 5 笔记 - AOP

1. AOP 简介 AOP:Aspect Oriented Programming, 面向切面编程或面向方面编程。利用AOP可以对业务逻辑的各个部分进行隔离,从而使得业务逻辑各部分之间的耦合度降低,提高程序的可重用性,同时提高了开发的效率。 将日志…

【英语】大学英语CET考试,写作部分(论述文+应用文,6篇范文)

文章目录 3项评分标准(内容&结构,语言)0.1 论述文个人小结 1、论述文:审题与功能句2、论述文:修饰内容和名言模板3、论述文:现象作文&利弊分析4、论述文:给出权威论据和有侧重的现象5、…

新老stp的配置和安全总结部分

老stp只有根桥没有备份桥 老stp的五种接口状态: disable 接口down没开stp blocking 阻塞 listening 发bpdu,比较bpdu优劣 leraning 开始学习mac地址表 forwardding 转发 老stp直接拓扑变化30秒,间接拓扑变化50秒 RSTP只有3种端口状态&#…

每日学术速递4.28

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos(CVPR 2023) 标题:StepFormer:教学视频中的自我监督步骤发现和定位…

vue diff算法与虚拟dom知识整理(1) 概念叙述

今天开始 我们来学习 虚拟dom和diff算法 首先 我们要简单了解 虚拟dom和diff算法在vue中的作用 例如 下图左侧是我们的加 然后 我们要将 家按图右改造一下 我们先来找一下不同 如图卷出来的效果 我们起居室想多装一个沙发 卧室床改了位置 电视不要了 阳台小改了一下 其实改…

每日学术速递4.27

Subjects: cs.CV 1.End-to-End Spatio-Temporal Action Localisation with Video Transformers 标题:使用视频转换器进行端到端时空动作定位 作者:Alexey Gritsenko, Xuehan Xiong, Josip Djolonga, Mostafa Dehghani, Chen Sun, Mario Lučić, Corde…

IS-IS协议基础知识

文章目录 前言介绍地址格式报文格式区域及路由器类型区域类型路由器类型Level-1 路由器Level-2 路由器Level-1-2路由器 IS-IS 网络类型DIS及伪节点伪节点DIS与OSPF的DR/BDR不同之处 IS-IS 邻接关系握手报文邻接关系的建立 IS-IS 链路状态数据库概述数据库同步报文泛洪机制数据库…

【网络编程】socket套接字

文章目录 一、源IP和目的IP二、端口号port三、TCP/UDP协议3.1 网络字节流 四、socket套接字4.1 socket常见接口4.2 sockaddr结构体 五、总结 一、源IP和目的IP 如果我们的台式机或者笔记本没有IP地址就无法上网,而因为每台主机都有IP地址,所以注定了数据…

Prometheus Exporter开发

Prometheus Exporter开发 Exporter数据格式介绍 Exporter徒手开发 Exporter4种指标类型演示 Exporter自定义注册表 Exporter 基于Collector的模块开发 Exporter介绍 数据格式 通讯协议 HTTP协议服务端实现了gzip 数据格式 text/plain:文本协议 数据格式 prometheus…

MySQL性能监控全掌握,快来get关键指标及采集方法!

数据库中间件监控实战,MySQL中哪些指标比较关键以及如何采集这些指标了。帮助提早发现问题,提升数据库可用性。 1 整体思路 监控哪类指标? 如何采集数据? 第10讲监控方法论如何落地? 这些就可以在MySQL中应用起来。…

ChatGPT提示词工程(四):Inferring推断

目录 一、说明二、安装环境三、推断(Inferring)1. 推断情绪(正面 / 负面)2. 确定情绪的类型3. 识别愤怒4. 从客户评论中提取产品和公司名称5. 一次完成多项任务6. 推断主题7. 主题中是否包含给定的主题 一、说明 这是吴恩达 《Ch…

【栈】的实现

🖊作者 : D. Star. 📘专栏 : 数据结构 😆今日分享 : —>📖区块链 : 小明向你借100块钱,说一周后还你,然后你拿个喇叭大喊一声:我是某某,小明向我借了100块&#xff0c…

Redis缓存(双写一致性问题)

Redis缓存(双写一致性问题) 1 什么是缓存?1.1 为什么要使用缓存1.2 如何使用缓存 2 添加缓存2.1 、缓存模型和思路2.2、代码如下 3 缓存更新策略3.1 、数据库缓存不一致解决方案:3.2 、数据库和缓存不一致采用什么方案 4 实现商铺和缓存与数…

【C生万物】 指针篇 (初级)

欢迎来到 Claffic 的博客 💞💞💞 👉 专栏:《C生万物 | 先来学C》👈 前言: 面对C语言,很多童鞋都会高呼:指针难,指针难&#x…

【计算机专业漫谈】【计算机系统基础学习笔记】W2-1十进制数与二进制数,各进制数直接的转换

利用空档期时间学习一下计算机系统基础,以前对这些知识只停留在应试层面,今天终于能详细理解一下了。参考课程为南京大学袁春风老师的计算机系统基础MOOC,参考书籍也是袁老师的教材,这是我的听课自查资料整理后的笔记 W2-1十进制…

ChatGPT背后的技术:人类反馈强化学习RLHF

文章目录 前言Chat GPT是如何基于RLHF进行训练的RLHF 技术分解预训练语言模型训练奖励模型强化学习微调预训练模型 局限性参考 前言 随着OpenAI推出的Chat GPT火热出圈,Chat GPT背后的技术原理之一,人类反馈强化学习RLHF (Reinforcement Learning from …