LauraGPT

news2025/1/12 12:20:52

git:https://github.com/alibaba-damo-academy/FunCodec

文章目录

    • model arch
    • AudioTokenizer
    • model init

model arch

在这里插入图片描述

  • text-embedding 用千问的模型参数初始化;AudioEncoder用asr-conformer的参数初始化;所有的参数都参与更新,除了CodecVocoder;
  • 输入(连续特征):【input embedding, taskID】
  • 输出(离散特征):【output tokens】,task token在输入和输出矩阵中都有;(N + M + L) × D的结果,N-text_token;M:audio_token;L:task_token
  • 计算loss的时候,mask output token中的input token & task token;

AudioTokenizer

  • 16khz的音频通过卷积压缩为25hz(40ms);conv:[8, 5, 4, 2, 2],
  • 更多的RVQ改善语音质量,并且shallow quantizers中有更多的信息;
  • AudioTokenizer = encoder+1st quantizer,1st quantizer的输出是audio token,audio token只作为GPT的输出使用,输入是连续的embedding;剩余的量化器&decoder只在训练阶段使用;

model init

    • text-embedding 用千问的模型参数初始化;AudioEncoder用asr-conformer的参数初始化;所有的参数都参与更新,除了CodecVocoder;
  • 初始化是否真的有用处?
    • 附录B2对比了在ASR/S2TT/SE任务有无初始化的效果,发现ASR/S2TT初始化有明显提升,SE任务初始化效果区别不大;
    • 使用的是NLP-LLM初始化,更多有助于文本生成任务;对于音频生成任务,可能用audio token训练过的会更有效;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1361640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Squish创建测试脚本

1、打开Squish IDE 2、创建TestSuit File-New TestSuit,输出TestSuit Name,选择路路径,点击Next按钮,ToolKit选择Qt,Scripting Language选择Python,选择AUT(Application Under Test),点击Fish完…

第10课 实现多对多音视频会议功能

在前两节课,我们将推流端与播放端合并为一对一音视频聊天功能并解决了关键的回声问题,在此基础上,我们可以进一步改进实现多对多的视频会议功能。 1.备份demo9并修改demo9为demo10。 2.打开工程文件,修改mfc为四分屏画面。 界面…

Typora设置 “图片自动保存到文档对应目录下” 的方法(亲测有效)

众所周知,typora是程序员非常喜爱的一款笔记软件,但它也有缺点 如:当我们要将旧电脑的写好的文件转移到新的电脑上时,如果简单的将图片文件放在一起,那么文件就会不好对应,那么如何让笔记中所包含的照片自…

Beauty algorithm(三)腮红

查阅资料了解到腮红位于苹果肌处,同样使用关键点确定目标区域,然后对该区域进行渲染达到美妆效果。考虑到如果使用简单的RGB是很难做到特效,本篇采用模板方式进行区域融合。 一、skills 前瞻 1、png图像读取 cv::imread(imgPath, cv::IMREAD_UNCHANGED) IMREAD_UNCHANGE…

一张照片来跳舞,AI带去你跳科目三

大家好我是在看,记录普通人学习探索AI之路。 重生之我是秦始皇,起猛了看见兵马俑在跳舞。 最近,随着社交媒体上热议的科目三话题热度持续飙升,阿里集团旗下的通义千问项目团队精准把握住了这一社会潮流,借势推出了一…

设计模式学习2

代理模式:Proxy 动机 “增加一层间接层”是软件系统中对许多复杂问题的一种常见解决方案。在面向对象系统中,直接食用某些对象会带来很多问题,作为间接层的proxy对象便是解决这一问题的常见手段。 2.伪代码: class ISubject{ pu…

Windows 10系统用Xlight FTP搭建SFTP服务器

步骤: 1.安装SFTP服务器 刚开始我使用的是freeSSHd,后面发现由于公司网络原因,打不开这个软件,改成了使用Xlight FTP, 官网下载链接:Xlight FTP 服务器 - 下载免费的windows FTP 服务器 Xlight FTP有30…

【数据结构和算法】字符串解码

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、题目描述 二、题解 2.1 什么情况会用到栈 2.2 方法一:辅助栈法 三、代码 3.1 方法一:辅助栈法 四…

走出WPF应用程序第一步

了解WPF 体系结构 下图说明了 WPF 的主要组件。 关系图的红色部分(PresentationFramework、PresentationCore 和 milcore)是 WPF 的主要代码部分。 在这些组件中,只有一个是非托管组件 - milcore。 milcore 是以非托管代码编写的&#xff0c…

【本科生通信原理】【实验报告】【北京航空航天大学】实验四:模拟信号的数字化及编码

目录 一、实验目的二、实验内容三、实验程序四、实验结果五、实验分析六、参考文献 一、实验目的 1、掌握低通信号的抽样及重建过程; 2、掌握PCM的编码及译码过程。 二、实验内容 共2问: 三、实验程序 1、 function q1() dt 0.001; % 时间分辨率…

macOS 老版本系统恢复中出现“MacBook Pro无法与恢复服务器取得联系”

macOS 老版本系统恢复中出现“MacBook Pro无法与恢复服务器取得联系” 网络问题系统时间问题镜像索引问题 网络问题 系统时间问题 镜像索引问题 恢复模式的 “实用工具 > 系统终端” 里执行如下 nvram IASUCatalogURLhttps://swscan.apple.com/content/catalogs/others/i…

Android 13.0 SystemUI状态栏居中显示时间和修改时间显示样式

1.概述 在13.0的系统rom定制化开发中,在systemui状态栏系统时间默认显示在左边和通知显示在一起,但是客户想修改显示位置,想显示在中间,所以就要修改SystemUI 的Clock.java 文件这个就是管理显示时间的,居中显示的话就得修改布局文件了 效果图如下: 2.SystemUI状态栏居中显…

如何配置 VS Code 实现 git 密码免输入

目录 问题描述尝试过的失败方法问题分析最终采用的解决方案:利用 ssh key 提供密码免输入功能安装 git windows 命令工具在windows本地生成 ssh key将公钥安装到 git 服务器第一种方法第二种方法调试方法 参考资料: 问题描述 在 Windows 上,使用 Visual…

西电期末1025.平滑滤波

一.题目 二.分析与思路 别光看公式,读题干:“位置i的输出为距离i最近的三个输入的平均值”,再看示例,输入几个,输出几个,所以就是输出每个位置距离最近的三个输入的平均值,中间没什么问题&…

高可用分布式部署Spark、完整详细部署教程

前言 Spark 是 UC Berkeley AMP Lab 开源的通用分布式并行计算框架。 Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS&#xff…

DoIP学习笔记系列:(八)车厂一般关于DoIP的相关测试分析

文章目录 1. 前言2. 基本项测试2.1 协议版本默认值2.2 车辆标识请求报文格式2.3 带EID的车辆标识请求报文格式2.4 带VIN的车辆标识请求报文格式2.5 否定响应码0x002.6 否定响应码0x012.7 否定响应码0x022.8 否定响应码0x042.9 路由激活应答码0x002.10 路由激活应答码0x012.11 路…

RMAN-03002 RMAN-06059 ORA-19625

有个现场经理反馈,每天的rman备份异常,登录系统查看rman的log日志,报错信息如下 RMAN> run{ 2> backup filesperset 50 archivelog all format /backup/ARCHBAK_%d_%T_%s tag arch_bak delete all input; 3> } 4> Starting …

粒子群优化pso结合bp神经网络优化对csv文件预测matlab(3)

1.csv数据为密西西比数据集,获取数据集可以管我要,数据集内容形式如下图: 2.代码 这里参考的是b站的一位博主。 数据集导入教程在我的另一篇文章bp写过,需要的话可以去看一下 psobp.m close all clc%读取数据 inputX; outputY;…

数字化工厂产品推荐 带OPC UA的分布式IO模块

背景 近年来,为了提升在全球范围内的竞争力,制造企业希望自己工厂的机器之间协同性更强,自动化设备采集到的数据能够发挥更大的价值,越来越多的传统型工业制造企业开始加入数字化工厂建设的行列,实现智能制造。 数字化…

Hierarchical Clusting模型

介绍: Hierarchical Clustering 是一种常用的聚类方法,它通过构建一个层次化的聚类树(或者称为聚类图),将数据点逐步合并组成不同的聚类簇。 Hierarchical Clustering 的主要思想是将相似的数据点归为一类&#xff0c…