The Llama 3 Herd of Models 第8部分语音实验部分全文

news2024/9/26 1:25:10

第1,2,3部分,介绍、概览、预训练

第4部分,后训练

第5部分,结果

第6部分,推理

第7部分,视觉实验

8 Speech Experiments

        我们进行了实验来研究将语音功能集成到Llama 3中的组合方法,类似于我们用于视觉识别的方法。在输入端,一个编码器,连同一个适配器,被并入处理语音信号。在Llama 3中,我们利用系统提示符(文本)来实现不同的语音理解操作模式。如果没有提供系统提示,则该模型作为通用的语音对话模型,可以以与纯文本版本Llama 3一致的方式有效地响应用户的语音。引入对话历史作为提示前缀,提升多轮对话体验。我们还试验了能够使用Llama 3进行自动语音识别(ASR)和自动语音翻译(AST)的系统提示。Llama 3的语音接口支持多达34种语言它还允许文本和语音的交错输入,使该模型能够解决高级音频理解任务。

        我们还实验了一种语音生成方法,其中我们实现了一个流式文本到语音(TTS)系统,该系统在语言模型解码期间实时生成语音波形。我们基于专有的TTS系统为Llama 3设计了语音生成器,并且没有对语音生成的语言模型进行微调。相反,我们专注于通过在推理时利用Llama 3嵌入来提高语音合成延迟、准确性和自然性。语音接口如图28和29所示。

 8.1 Data

8.1.1 Speech Understanding

        训练数据可以分为两类。预训练数据包含大量未标记语音,用于自监督方式初始化语音编码器。所述监督微调数据包括语音识别、语音翻译和语音对话数据;当与大型语言模型集成时,这些数据用于解锁特定的能力。

        预训练的数据。为了预训练语音编码器,我们策划了一个包含大量语言的大约1500万小时语音记录的数据集。我们使用语音活动检测(VAD)模型过滤音频数据,并选择VAD阈值大于0.7的音频样本进行预训练。在语音预训练数据中,我们也注重保证PII的不存在。我们使用Presidio Analyzer来识别此类PII。

        语音识别和翻译数据。我们的ASR训练数据包含23万小时的人工转录语音记录,涵盖34种语言。我们的AST训练数据包含两个方向的90K小时的翻译:从33种语言到英语和从英语到33种语言。该数据包含使用NLLB工具包生成的监督数据和合成数据(NLLB Team et al, 2022)。合成AST数据的使用使我们能够提高低资源语言的模型质量。我们数据中的语音片段的最长长度为60秒。

        口语对话数据。为了调整语音

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1981265.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

低代码开发是什么意思?低代码是开发的未来吗?

在数字化转型的浪潮中,低代码平台是一股不可忽视的力量,它正在以前所未有的速度改变着软件开发的格局。低代码不仅极大地简化了开发流程,降低了技术门槛,还通过高效、灵活的特性,为企业和开发者带来了前所未有的创新机…

页面弹窗中英文切换

一、遇到的问题 页面右上角弹窗如下 二、解决 去掉 lang"en"即可。

SVPWM5段式7段式差异分析和关键代码基于TI F28035

SVPWM5段式7段式差异分析和关键代码基于TI F28035 5段式有一相占空比始终为0或者1 扇区判断的扇区号和实际扇区不是一一对应,直接使用,而是映射关系 扇区判断变量 7段式和5段式在基本矢量作用顺序上的差异 SVPWM算法详解(已标注重点) 来自这篇文章,但经过实际测试,发现是…

计算机和医学领域成重灾区!5本TOP刊也位列其中,请大家谨慎投稿!

【SciencePub学术】自从Hindawi一年撤稿多达一万多篇的事件以来,官方对期刊质量的管控就越来越严格了。更有很多学校和单位都频频更新自己的风险期刊名单,其中,Hindawi、Frontiers、MDPI甚至都被直接打包拉黑! 更有On Hold 期刊现…

ios上音频需要点击两次才播放

问题 用H5标签audio渲染音频,测试PC和安卓都没有问题,点击一次就播放,并且可以在播放之前正常显示音频时长 但是在iOS系统上没有播放之前,不仅时长显示为0,并且播放还需要点击2次才正常播放 原因 debug之后发现是因为…

计算机毕业设计选题推荐-遥感影像共享系统-Java/Python项目实战

✨作者主页:IT毕设梦工厂✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

GaussDB关键技术原理|高可用:两地三中心跨Region容灾

接上篇GaussDB关键技术原理|高可用:逻辑复制从逻辑复制方面对GaussDB的高可用能力进行了介绍,本篇将从两地三中心跨Region容灾方面继续解读GaussDB高可用技术。 目录 4 两地三中心跨Region容灾 4.1 概述 4.2 异地容灾部署示例 集中式 分布式&#x…

sheng的学习笔记-AI-层次聚类

AI目录:sheng的学习笔记-AI目录-CSDN博客 需要学习的前置知识:聚类,可参考:sheng的学习笔记-AI-聚类(Clustering)-CSDN博客 什么是层次聚类 层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形…

2024年第五届华数杯全国大学生数学建模竞赛【C题】完整版代码+结果 分享

问题1的设问虽然不涉及到数学模型,只需要统计题目所给附件数据,但在做题之前可以先整理思路: ①统计景点评分最高分;②统计最高分在所有文件中出现的总次数;③统计出现高分次数最多的csv文件;④统计出现最…

js前端展示ppt【插件:PPTXJS】

前端展示PPT 使用插件: 官方网址: https://pptx.js.org/index.html github网址: https://github.com/meshesha/PPTXjs/releases 实例网址: https://pptx.js.org/pages/demos.html通过下载官方demo可以获得完整的实例

MySQL简介 数据库管理与表管理

文章目录 1 MySQL的优势2 MySQL数据类型1 数字类型2 日期和时间类型3 字符串类型 3 数据库管理4 数据表管理参考 1 MySQL的优势 性能优化:通过优化存储引擎(InnoDB,MyISAM)和查询优化。解决大规模数据处理和查询优化开源&#xf…

孩子被确诊为自闭症怎么办?

当家庭收到孩子被确诊为自闭症的消息时,这无疑是一次巨大的心理冲击和挑战。面对这一突如其来的诊断,许多家长会感到无助、焦虑甚至绝望。然而,重要的是要认识到,自闭症并非不可逾越的障碍,通过科学、专业的干预和治疗…

调度中心控制台:智慧运营的心脏,引领高效管理的未来

在当今这个信息化、智能化发展的时代,各行各业的运营管理都面临着前所未有的挑战与机遇。作为协调资源、指挥调度的核心枢纽,调度中心控制台不仅是信息汇聚的窗口,更是智慧决策与高效执行的起点。接下来就由嘉德立给大家深入探讨一下调度中心…

【C#语音文字互转】.NET的TTS文本转语音合成

本文章环境介绍: Visual Studio 2022;C#SDK为.NET6.0 一. 启动 Visual Studio 并创建控制台应用程序 1.1 首先在项目打开NuGet包管理工具下载System.Speech。 1.2测试 下面为一个典型的输出示例 using System.Speech.Synthesis; namespace KeepTalkin…

视觉SLAM第三讲

本讲将介绍视觉 SLAM 的基本问题之一:三维空间的刚体运动描述方式:旋转矩阵、变换矩阵、四元数和欧拉角。 点、向量和坐标系 点:空间当中的基本元素,没有长度,没有体积。 向量:可以将向量看作从一个点指向…

如何快速创建一个微信报名链接

在这个快节奏的时代,如何让活动报名更加便捷、高效,成为了众多主办方关注的焦点。今天,就让我们一起探索如何快速创建一个微信报名链接,让您的活动报名变得前所未有的简单与智能。 一、洞悉需求,解锁报名新方式 在数字…

【Pyspark-驯化】一文搞定spark的代码执行原理和使用技巧

【Pyspark-驯化】一文搞定spark的代码执行原理和使用技巧 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 相关内容文档获取 微信公众号 &…

国标GB28181协议设备通道告警没有快照图片怎么办?实时流抓图/录像抓图

熟悉国标GB28181协议的同学都知道,国标协议在告警推送这一块定义了各种告警类型和告警参数,但就是没有定义告警的图片应该怎么上传到平台,所以,现在市面上的所有设备,几乎都不支持上传告警图片,这给我们的项…

CCRC-DSA数据安全评估师:加快构建大网络安全工作格局

7月31日,第十二届ISC.AI互联网安全大会开幕式在北京国家会议中心隆重举行,本次大会以“构建大型安全防护模型,引领安全产业创新”为主题。 中央网络安全和信息化委员会办公室副主任、国家互联网信息办公室副主任王京涛出席并发表了重要讲话。…

【简历】黑龙江某一本大学:Java简历指导,中厂面试通过率低

简历说明 这是黑龙江某一本大学25届的校招简历,计算机专业,那么我们说像这种比较好的一本大学叫老一本,大家应该定下,一本的就业主体在中厂,所以校招你要先定你的就业范围,因为考察的项目要求,…