每日学术速递5.5

news2024/11/23 19:00:51

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CL

1.ResiDual: Transformer with Dual Residual Connections

标题:ResiDual:具有双剩余连接的Transformer

作者:Shufang Xie, Huishuai Zhang, Junliang Guo, Xu Tan, Jiang Bian, Hany Hassan Awadalla, Arul Menezes, Tao Qin, Rui Yan

文章链接:https://arxiv.org/abs/2304.14802

项目代码:https://github.com/microsoft/ResiDual

摘要:

        由于其最先进的性能,Transformer 网络已成为许多任务的首选架构。然而,在 Transformer 中实现残差连接的最佳方式仍然存在争议,这对于有效训练至关重要。两种广泛使用的变体是后层归一化 (Post-LN) 和前层归一化 (Pre-LN) 变换器,它们分别在每个残差块的输出之后或每个残差块的输入之前应用层归一化。虽然这两种变体都有其优势,但它们也有严重的局限性:Post-LN 导致梯度消失问题,阻碍了深度 Transformers 的训练,而 Pre-LN 导致表示崩溃问题,限制了模型容量。在本文中,我们提出了 ResiDual,一种具有 Pre-Post-LN (PPLN) 的新型 Transformer 架构,它将 Post-LN 和 Pre-LN 中的连接融合在一起,继承了它们的优点,同时避免了它们的局限性。我们进行了理论分析和实证实验来验证 Residual 的有效性。从理论上讲,我们证明 ResiDual 在梯度上有一个下限,以避免由于 Pre-LN 的残差连接而导致的消失问题。此外,Residual 还具有多样化的模型表示,以避免由于 Post-LN 的残差连接而导致的崩溃问题。根据经验,Residual 在不同网络深度和数据大小的多个机器翻译基准测试中优于 Post-LN 和 Pre-LN。由于良好的理论和实证性能,Residual Transformer 可以作为不同 AI 模型(例如,大型语言模型)的基础架构。我们的代码可在此 https URL 上获得。

2.Learning to Reason and Memorize with Self-Notes

标题:ImageReward:学习和评估人类对文本到图像生成的偏好

作者:Jack Lanchantin, Shubham Toshniwal, Jason Weston, Arthur Szlam, Sainbayar Sukhbaatar

文章链接:https://arxiv.org/abs/2305.00833

摘要:

        大型语言模型已被证明难以应对有限的上下文记忆和多步推理。我们提出了一种简单的方法来解决这两个问题,即允许模型进行自我注释。与最近的暂存器方法不同,该模型可以随时偏离输入上下文以明确思考。这允许模型在读取上下文时即时调用信息并执行推理,从而扩展其记忆并实现多步推理。我们对多项任务的实验表明,我们的方法可以通过在推理时进行自我注释,成功地从训练设置中泛化到更长、更复杂的实例。

Subjects: cs.CV

3.MMViT: Multiscale Multiview Vision Transformers

标题:MMViT:多尺度多视图视觉Transformer

作者:Yuchen Liu, Natasha Ong, Kaiyan Peng, Bo Xiong, Qifan Wang, Rui Hou, Madian Khabsa, Kaiyue Yang, David Liu, Donald S. Williamson, Hanchao Yu

文章链接:https://arxiv.org/abs/2305.00104

摘要:

        我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段,以并行处理不同分辨率下输入的多个视图。在每个规模阶段,我们使用交叉注意块来融合不同视图的信息。这使 MMViT 模型能够以不同的分辨率获取输入的复杂高维表示。所提出的模型可以作为多个领域的骨干模型。我们展示了 MMViT 在音频和图像分类任务上的有效性,实现了最先进的结果。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/494795.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

制造企业选择库存管理条码工具需要关注哪些点?

Dynamsoft Barcode Reader SDK 一款多功能的条码读取控件,只需要几行代码就可以将条码读取功能嵌入到Web或桌面应用程序。这可以节省数月的开发时间和成本。能支持多种图像文件格式以及从摄像机或扫描仪获取的DIB格式。使用Dynamsoft Barcode Reader SDK&#xff0c…

OpenCV实战(22)——单应性及其应用

OpenCV实战(22)——单应性及其应用 0. 前言1. 单应性1.1 单应性基础1.2 计算两个图像之间的单应性1.3 完整代码 2. 检测图像中的平面目标2.1 特征匹配2.2 完整代码 小结系列链接 0. 前言 我们已经学习了如何从一组匹配项中计算图像对的基本矩阵。在射影…

读论文《大气压等离子体电离波沿介质管传输特性研究》

文章目录 一、研究背景和意义二、研究目的与内容三、电离波概述3.1 电离波与传统的流注放电3.2 电离波传输速度的计算方法 四、放电参数对电离波传输特性的影响4.1 施加电压与电压波形对电离波传输的影响4.1.1 交流高压对电离波的影响4.1.2 脉冲高压对电离波的影响![在这里插入…

《编程思维与实践》1047.Base64编码

《编程思维与实践》1047.Base64编码 题目 思路 直接模拟:将每个Base64编码值都分为两部分:前半部分由上一个字符求得,后半部分由下一个字符求得. 特别地,如果字符为第一个或最后一个,则直接可以求得Base64编码. 如下图: 其中,% 2 n 2^n 2n表示取出后n位的二进制位, 这是因…

专业游戏录屏软件Camtasia 2023强悍来袭,Camtasia Studio 2023的新增功能!

Camtasia Studio 2023是一款专门录制屏幕动作的工具,它能在任何颜色模式下轻松地记录 屏幕动作,包括影像、音效、鼠标移动轨迹、解说声音等等,另外,它还具有即时播放和编 辑压缩的功能,可对视频片段进行剪接、添加转场…

又一起数据泄露事件五个月内的第二次

据报道,T-Mobile 在发现攻击者从 2023 年 2 月下旬开始的一个多月内访问了数百名客户的个人信息后,披露了 2023 年的第二次数据泄露事件。 与之前报告的数据泄露事件(最近一次影响了 3700 万人)相比,此次事件仅影响了…

Linux一学就会——编写自己的shell

编写自己的shell 进程程序替换 替换原理 用fork创建子进程后执行的是和父进程相同的程序(但有可能执行不同的代码分支),子进程往往要调用一种exec函数 以执行另一个程序。当进程调用一种exec函数时,该进程的用户空间代码和数据完全被新程序替换,从新程序的启动 例程开始执行…

Node.js 是什么?

简介 Node.js入门指南,服务器端JavaScript运行时环境。Node.js是在Google Chrome V8 JavaScript引擎的基础上构建的,它主要用于创建web服务器,但并不局限于此。 实际上Node.js 是把运行在浏览器中的js引擎抽离处理,进行再次封装…

MagicaCloth2安装教程

您可访问官网查看详情; MagicaSoft Unity Assets – Magica Soft 也可通过我的资源文件获得此插件的详细教程: (19条消息) UnityMagicaCloth2插件中文文档(机翻/部分)-Unity3D文档类资源-CSDN文库 MagicaCloth2是基于ECS开发的…

水质信息监测与管理系统

1.1 系统总体设计 1.1.1 系统组成 水质信息监测与管理系统由水质监测站网管理、水质监测数据管理、水质分析评价、水质监测资料整汇编、水质信息查询、水质信息发布等组成。 水质监测站网管理主要实现对各类监测站网(固定监测站网、自动监测站网、动态监测站网&a…

Party Again!转录组+LC代谢组=899/组!

转录组代谢组,是基于代谢组和转录组数据,开展表达基因(mRNA)与代谢物的相关性分析。可实现差异代谢物与时序表达的差异基因的共表达分析,构建核心调控网络机制,找出其中的关键候选基因,揭示表型…

前端001_初始化数据库管控管理系统

数据库管控管理系统采用 Vue.js ElementUI 来搭建系统的前端。 1、技术栈 技术名说明vue.js前端vuex状态管理器mockjs模拟后台apiaxios拦截器echart图标element-ui组件库vue-element-admin脚手架,原始参照的项目模版mavon-editormarkdown编辑器 2、ElementUI 简…

用DG备库做的rman备份恢复一个数据库

环境描述: 1.因为主库存储空间不足,于是将备份放在dg备库上做。 2.主库因为磁盘空间问题,数据文件有两个目录。 3.dg备库因为主库两个数据文件目录里面有两个同名数据文件,所有dg备库也有两个数据文件目录。 4.主库与备库与测…

Grafana 系列-统一展示-1-开篇

系列文章 Grafana 系列文章 Grafana 简介 Grafana 是 Grafana Labs 的第一款也是最重要的产品。它的定位是可视化, 用于监控展示 和 可观察性. 是当前最为完善、流行的云原生、公有云和企业监控可视化平台。 Dashboard anything. Observe everything 无论你的数据存储在哪…

从 PC 解锁 Android 手机的 6 种有效方法

在这个数字时代,手机已成为我们生活的重要组成部分。我们将它们用于各种用途,从跟踪我们的工作和社交日程到与亲人交流。 然而,有时我们的手机会成为令人沮丧的源头,尤其是当我们不小心将自己拒之门外时。但是您知道可以使用计算…

基于SpringBoot+Vue实现的酒店管理系统

【简介】 基于springbootvue实现的酒店管理系统,用于酒店客房业务管理与酒店内部管理。 【功能结构】 【技术架构】 后端:springbootmybatis 前端:vue element-ui 环境:mysqlmaven node 【代码结构与数据库】 【功能详述】…

LeetCode232. 用栈实现队列

232. 用栈实现队列 描述示例解题思路以及代码 描述 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作(push、pop、peek、empty): 实现 MyQueue 类: void push(int x) 将元素 x 推到队列的末尾 int pop()…

UICollectionView 实现整页翻动(每页3个cell)

提示&#xff1a;页面架构是通过UICollectionView做的分页&#xff0c;分页点PageControl使用的是<SDCycleScrollView/TAPageControl.h> &#xff0c;布局架构使用的是Masonry 前言 为了实现UICollectionView无限翻动&#xff0c;连续滑动&#xff0c;主要是利用pagingE…

海豚1.3单节点,多集群设置

最近出差忙项目&#xff0c;一直没更新&#xff0c;现在项目结尾了。回来继续搞集群 公司因为CDH升级为CDP&#xff0c;两套环境数据和任务慢慢迁移&#xff0c;但是调度任务需要同时跑批。 而我们的海豚调度是单节点的&#xff0c;master和worker等服务都在一台节点上。 之前…

基于VBA实现成绩排序的最佳方法-解放老师的双手

作为一名老师&#xff0c;每到期末就要面对一件让人头疼的事情——成绩表统计。 首先&#xff0c;要收集每个学生的考试成绩。这需要花费大量的时间和精力&#xff0c;因为每个学生都有多门科目的成绩需要统计。 其次&#xff0c;要将每个学生的成绩录入到电子表格中。这看起来…