Conformer解析

news2024/9/29 3:31:30

文章目录

  • 前言
  • Conformer encoder model architecture
    • Convolution Subsampling
    • Linear & Dropout
    • Conformer Blocks
      • Feed Forward Module
      • Multi-Headed Self-Attention Module
      • Convolution Module

前言

Conformer encoder model architecture

在这里插入图片描述对于语音来说,整个架构里,输入是(batch_size,time_steps,feature_dim),输出也是(batch_size,time_steps,feature_dim)

  • batch_size:每个batch的样本数量
  • time_steps:每个样本语音sequence的时间长度,比如128帧
  • feature_dim:特征维度,如Mel频谱系数的数量

Convolution Subsampling

一种有效的降维方式,同时保持了输入特征和时间步长的缩减。卷积层通过下采样减少计算复杂度
对输入序列进行卷积下采样,同时增加通道维度。具体地,它通过两个 Conv2d 操作将输入的时间步长缩减到原来的 1/4,并且输出的特征维度与 encoder_dim 相关。
Input:[batch_size,time_steps,input_dim]
先通过增加维度为[batch_size,1,time_steps,input_dim]
再通过卷积把1拓展为encoder_dim,同时将时间维度和特征维度约变为原来的1/4,即
new_input_dim=((input_dim - 1) // 2 - 1) // 2
new_time_steps=((time_steps-1)//2-1)//2
[batch_size,encoder_dim,new_time_steps,new_input_dim],随后将其展开,变为三维tensor:[batch_size,new_time_steps,new_input_dim*encoder_dim]
eg:
encoder_dim=80
[25,128,40]–>[25,31,720]

Linear & Dropout

  • Linear
    Linear层在convolution subsampling的作用是将
    卷积后展平的特征维度映射到 encoder_dim 的维度。虽然卷积后的特征数经过扩展,但最终希望使用 Linear 层将其映射到 encoder_dim 大小,以便后续的 Conformer block 处理。
    input: [batch_size,new_time_steps,new_input_dim*encoder_dim]
    output:[batch_size,new_time_steps,encoder_dim]
  • Dropout
    随机失活层,在训练过程中以一定的概率随机丢弃一些特征,用于防止过拟合。

Conformer Blocks

需要注意的是,每个 Module 都使用了残差连接。

Feed Forward Module

在这里插入图片描述对输入进行layernorm之后,第一个线性层使用扩展因子 4,第二个线性层将其投影回模型维度。中间使用swish激活函数并且进行dropout操作,最后进行一次dropout
input: [batch_size,new_time_steps,encoder_dim]
output:[batch_size,new_time_steps,encoder_dim]

class FeedForwardModule(nn.Module):
    def __init__(
            self,
            encoder_dim: int = 512,
            expansion_factor: int = 4,
            dropout_p: float = 0.1,
    ) -> None:
        super(FeedForwardModule, self).__init__()
        self.sequential = nn.Sequential(
            nn.LayerNorm(encoder_dim),
            Linear(encoder_dim, encoder_dim * expansion_factor, bias=True),
            Swish(),
            nn.Dropout(p=dropout_p),
            Linear(encoder_dim * expansion_factor, encoder_dim, bias=True),
            nn.Dropout(p=dropout_p),
        )

    def forward(self, inputs: Tensor) -> Tensor:
        return self.sequential(inputs)class FeedForwardModule(nn.Module):
    def __init__(
            self,
            encoder_dim: int = 512,
            expansion_factor: int = 4,
            dropout_p: float = 0.1,
    ) -> None:
        super(FeedForwardModule, self).__init__()
        self.sequential = nn.Sequential(
            nn.LayerNorm(encoder_dim),
            Linear(encoder_dim, encoder_dim * expansion_factor, bias=True),
            Swish(),
            nn.Dropout(p=dropout_p),
            Linear(encoder_dim * expansion_factor, encoder_dim, bias=True),
            nn.Dropout(p=dropout_p),
        )

    def forward(self, inputs: Tensor) -> Tensor:
        return self.sequential(inputs)
      

Multi-Headed Self-Attention Module

input: [batch_size,new_time_steps,encoder_dim]
output:[batch_size,new_time_steps,encoder_dim]在这里插入图片描述
多头自注意力模块,这里用了相对位置编码(源于Transformer-XL)

Convolution Module

input: [batch_size,new_time_steps,encoder_dim]
output:[batch_size,new_time_steps,encoder_dim]在这里插入图片描述
卷积模块包含一个扩展因子为 2 的逐点卷积,用 GLU 激活层投影通道数,后跟一个一维深度卷积。一维深度卷积之后是 Batchnorm,然后是 swish 激活层,再接逐点卷积,最后dropout

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2052327.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

内核链表的实现

内核链表和普通链表的区别: 1. 普通链表当中数据域和指针域,没有做到区分,数据与指针形成了一个整体,而内核链表数据与指针是完全剥离的没有直接的关系。 2. 在普通链表当中所有节点的数据都是一样的类型,而内核链表…

vmware安装openEuler操作系统

文章目录 vmware安装openEuler操作系统官网地址下载方式 新建虚拟机新建虚拟机新建虚拟机向导输入新建的虚拟机名称预览安装虚拟机的操作系统开始安装语言选项基础配置 网络配置关机拍快照克隆模板机 vmware安装openEuler操作系统 官网地址 https://www.openeuler.org/zh/dow…

6.4 MySQL 常见查询优化案例分析

欢迎来到我的博客,很高兴能够在这里和您见面!欢迎订阅相关专栏: 工💗重💗hao💗:野老杂谈 ⭐️ 全网最全IT互联网公司面试宝典:收集整理全网各大IT互联网公司技术、项目、HR面试真题.…

Python 函数参数介绍

目录 函数 -- 普通参数 函数 -- 参数进一步 -- 指定参数 函数 -- 参数带 * -- 将传入的参数打包成元组 函数 -- 参数带 ** -- 关键字传参 -- 将传入的参数打包成字典 综合使用 函数 -- 普通参数 函数 -- 参数进一步 -- 指定参数 函数调用时,未指定的参数需要写…

风清扬/基于Java语言的光伏监控系统+光伏发电预测+光伏项目+光伏运维+光伏储能项目

基于Java语言的光伏监控系统光伏发电预测光伏项目光伏运维光伏储能项目 介绍 基于Java语言的光伏监控系统光伏发电系统光伏软件系统光伏监控系统源码光伏发电系统源码 基于Java语言的光伏监控系统光伏发电预测光伏项目光伏运维光伏储能项目 安装教程 参与贡献 Fork 本仓库新…

十分钟搭建一个RTMP服务器

使用SRS搭建RTMP服务器 如果您需要搭建一个RTMP服务器,您可以使用SRS(Simple-RTMP-Server)来完成此任务。SRS是一个开源的RTMP服务器下面是一个简单的步骤指南: 获取srs srs官⽹:https://github.com/ossrs/srs 码云…

软考2024下半年软考报名时间安排及报名流程

简介 软件资格考试也称计算机软件水平考试 [1],是原中国计算机软件专业技术资格和水平考试的完善与发展。是对从事或准备从事计算机应用技术、网络、信息系统和信息服务等专业技术工作的人员水平和能力的测试。这项考试是由国家人力资源和社会保障部、工业和信息化…

【通信协议】I2C总线(一主多从)

目录 I2C简介 硬件电路 软件模拟初始化 基本单元 起始信号 停止信号 发送一个字节 接收一个字节 发送应答 接收应答 I2C基本单元代码 MyI2C.h MyI2C.c 完整数据帧 学习资料分享 本博客使用软件模拟的代码进行I2C总线​​​​​​(总线指多个设备共用…

【Python机器学习系列】使用Hyperopt搜索随机森林分类模型最优超参数(案例+源码)

这是我的第342篇原创文章。 一、引言 Hyperopt是一个强大的python库,用于超参数优化,由jamesbergstra开发。Hyperopt使用贝叶斯优化的形式进行参数调整,允许你为给定模型获得最佳参数。它可以在大范围内优化具有数百个参数的模型。 在本节中…

Vue3.0生命周期钩子(包含:Vue 2.0 和 Vue 3.0)

1、Vue 2.0 生命周期钩子 每个应用程序实例在创建时都有一系列的初始化步骤。例如,创建数据绑定、编译模板、将实例挂载到 DOM 并在数据变化时触发 DOM 更新、销毁实例等。在这个过程中会运行一些叫做生命周期钩子的函数,通过这些钩子函数可以定义业务逻…

【STM32+HAL】巡逻打靶小车

一、前言 作为电赛最爱出的小车和视觉题,将两者结合起来出题也是一个方向,故写下此文供学者参考,也作为备赛电赛的记录。 如有小伙伴想交流学习心得,欢迎加入群聊751950234,群内不定期更新代码,以及提供本…

elasticsearch的高亮查询三种模式查询及可能存在的问题

目录 高亮查询使用介绍 高亮参数 三种分析器 可能存在的查询问题 fvh查询时出现StringIndexOutOfBoundsException越界 检索高亮不正确 参考文档 高亮查询使用介绍 Elasticsearch 的高亮(highlight)可以从搜索结果中的一个或多个字段中获取突出显…

python:霍夫变换检测直线

霍夫变换检测直线 在Python中,可以使用OpenCV库来实现霍夫变换进行直线检测。 一、原理 1、霍夫变换(Hough Transform) 霍夫变换是图像处理中从图像中识别几何形状的基本方法之一,应用很广泛,也有很多改进算法。主要用来从图像中分离出具有…

Linux中的锁

user2正在进行抢票: 4 user3正在进行抢票: 3 user1正在进行抢票: 2 user4正在进行抢票: 1 user2正在进行抢票: 0 user3正在进行抢票: -1 user1正在进行抢票: -2 int tickets10000; void* getTicket(void* args) {string usernamestatic_cast<const char*>(args);while(…

【C++篇】迈入新世界的大门——初识C++(上篇)

文章目录 C发展历史C起源C版本更新C23小故事 C在工作领域的应用C参考网站及文档书籍编程语言排行榜C难度参考文档书籍参考文档参考书籍 C第一个程序命名空间为什么要使用namespacenamespace定义及规则命名空间使用 C输入&输出名字含义 缺省参数函数重载 C发展历史 C起源 …

新手小白零基础,该怎样学习编程呢?零基础入门到精通,收藏这一篇就够了

零基础编程入门先学什么&#xff1f;编程语言有几百种&#xff0c;我们应该怎么选择。想学习编程&#xff0c;加入互联网行业&#xff0c;哪一个更有前途&#xff1f;在小白学习编程会有各种各样的问题&#xff0c;今天小编我就来为你解答。 一、怎么选择编程语言 编程语言有很…

geomagic怎么删除平面?geomagic怎么修模

在现代三维建模和3D打印技术的发展中&#xff0c;Geomagic作为一款专业的软件工具&#xff0c;广泛应用于逆向工程、产品设计和质量检测等领域。本文将详细介绍geomagic怎么删除平面&#xff1f;geomagic怎么修模&#xff0c;并探讨Geomagic的主要应用领域。通过这些内容&#…

SAP_ABAP模块-批量导入货源清单

一、业务背景 有个朋友做ECC 6.0的项目&#xff0c;期初上线时&#xff0c;有一个需求是批量导入货源清单&#xff0c;我问了好几个朋友&#xff0c;加上自己以前的积累&#xff0c;硬是没有找到一个完全能用的程序&#xff0c;下面我来说一下我遇到的问题&#xff1b; 对货源清…

【软件造价咨询】软件造价之全国各省市功能点单价分析

在软件工程领域&#xff0c;功能点是衡量软件规模的一种单位&#xff0c;功能点分析是一种广泛使用的方法&#xff0c;用于估算软件项目的规模和成本。其中功能点单价是指每功能点的软件开发费用&#xff08;单位&#xff1a;元/功能点&#xff09;。 本篇文章通过调研了20多份…

运维开发——局域网SSH访问服务器与应用

摘要 本博文主要介绍局域网SSH访问登陆虚拟机和及其应用相关配置操作。 1. 局域网SSH访问登陆虚拟机 目标&#xff1a;在局域网内A电脑使用SSH登陆B电脑上虚拟机的服务器。 前提条件:B电脑为宿主机&#xff0c;可以正常使用ssh访问虚拟机服务器&#xff0c;虚拟机网络连接方…