使用 Lhotse 高效管理音频数据集

使用 Lhotse 高效管理音频数据集

news2026/2/13 23:54:37

Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库，它与 k2 一起，构成了下一代 Kaldi 语音处理库的一部分。

主要目标：

1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。

2. 为有经验的 Kaldi 用户提供富有表现力的命令行接口。

3. 为常用的语料库提供标准的数据准备方案。

4. 为与语音和音频相关的任务提供 PyTorch 数据集类。

5. 通过音频剪辑的概念实现模型训练中的灵活数据准备。

6. 提高效率，特别是在 I/O 带宽和存储容量方面。

使用 Lhotse 对数据集结构化抽象、存储和转换成 PyTorch 数据管道，可以很方便实现语音识别和语音合成工程项目。

无论是音频大文件和小文件，都可以使用 cut 来有效表达：

Lhotse 支持了近百个数据集，开箱即用，新的数据集可参考这些例子来完成。

操作数据集也很方便

很方便地与 PyTorch 集成

Lhotse 的可扩展性

除了文本与语音信息外，Lhotse 还可以 custom 许多信息：强制对齐、duration、pitch 等，可以方便地支持多种语音任务。

对于特征抽取的存储，Lhotse 的写入效率会随着文件大小逐渐变慢，必要的时候需要 CutSet.split 成多个 JOB 执行来提高效率。

此外，尽管 Lhotse 提供了命令行工具，但缺乏 web 工具去分析数据集、样例数据。

依赖 Lhotse 的项目

https://github.com/k2-fsa/icefall
https://github.com/lifeiteng/vall-e

参考资料：

https://lhotse.readthedocs.io/en/latest/index.html
Slides for the Interspeech 2023 tutorial
- https://github.com/k2-fsa/icefall/issues/1230

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1249761.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【ELK02】ES的重要核心概念和索引常用操作-索引文档管理、文档搜索

【ELK02】ES的重要核心概念和索引常用操作-索引文档管理、文档搜索

一、ELASTICSEARCH核心概念 1.ES中的重要概念 1.1索引(index) 类似于关系型数据中的库-database,一个es的集群中可以有多个索引,每个索引都是一批独立的存储数据,按照一定的数据结构保存,方便查询. 1.2类型(type) 类似于关系型数据库中的表格-table,一个索引中可以有多个类…

阅读更多...

Leetcode---372周赛

Leetcode---372周赛

题目列表 2937. 使三个字符串相等 2938. 区分黑球与白球 2939. 最大异或乘积 2940. 找到 Alice 和 Bob 可以相遇的建筑一、使三个字符串相等这题把题目意思读懂，正常模拟就行，简单来说就是看三个字符串的最长公共前缀有多长， 代码如下…

阅读更多...

Redis Cluster主从模式详解

Redis Cluster主从模式详解

在软件的架构中，主从模式（Master-Slave）是使用较多的一种架构。主（Master）和从（Slave）分别部署在不同的服务器上，当主节点服务器写入数据时，同时也会将数据同步至从节点服…

阅读更多...

【计算机网络笔记】数据链路层——差错编码

【计算机网络笔记】数据链路层——差错编码

系列文章目录什么是计算机网络？ 什么是网络协议？ 计算机网络的结构数据交换之电路交换数据交换之报文交换和分组交换分组交换 vs 电路交换计算机网络性能（1）——速率、带宽、延迟计算机网络性能（2）…

阅读更多...

亚马逊云科技re:Invent大会：云计算与生成式AI共筑科技新局面，携手构建未来

亚马逊云科技re:Invent大会：云计算与生成式AI共筑科技新局面，携手构建未来

随着科技的飞速发展，云计算和生成式 AI 已经成为了推动科技进步的重要力量。这两者相互结合，正在为我们创造一个全新的科技局面。亚马逊云科技的re:Invent大会再次证明了云计算和生成式AI的强大结合正在塑造科技的新未来。这次大会聚焦了云计算的前沿技…

阅读更多...

通过ros系统中websocket中发送sensor_msgs::Image数据给web端显示(二)

通过ros系统中websocket中发送sensor_msgs::Image数据给web端显示(二)

通过ros系统中websocket中发送sensor_msgs::Image数据给web端显示(二) mp4媒体流数据 #include <ros/ros.h> #include <signal.h> #include <sensor_msgs/Image.h> #include <message_filters/subscriber.h> #include <message_filters/synchroniz…

阅读更多...

DNS 区域传输（AXFR）

DNS 区域传输（AXFR）

漏洞描述 docker环境搭建使用 AXFR 协议的 DNS 区域传输是跨 DNS 服务器复制 DNS 记录的最简单机制。为了避免在多个 DNS 服务器上编辑信息，可以在一台服务器上编辑信息，并使用 AXFR 将信息复制到其他服务器。但是，如果您不保护您的服务器&…

阅读更多...

图论——最小割问题

图论——最小割问题

Capacity（S，T) Min-Cut(通俗的说就是用最小的力气隔断） 最小割并不唯一最大流最小割定理对于一个网络流问题，最大流的流量最小割的容量寻找最小割可以使用Edmonds-karp or Dinic algorithm 首先寻找任意一个最大流&#xff…

阅读更多...

浏览器是什么

浏览器是什么

浏览器是什么本文简要介绍浏览器的功能和组成。浏览器（Web Browser）是一种用于访问和浏览互联网上的网页和资源的软件应用程序。它是用户与互联网交互的主要工具之一。浏览器通过使用网络协议（如HTTP、HTTPS等）与远程服务器通…

阅读更多...

杰发科技AC7801——ADC软件触发的简单使用

杰发科技AC7801——ADC软件触发的简单使用

前言 7801资料读起来不是很好理解，大概率是之前MTK的大佬写的。在此以简单的方式进行描述。我们做一个简单的规则组软件触发Demo。因为规则组通道只有一个数据寄存器，因此还需要用上DMA方式搬运数据到内存。 AC7801的ADC简介 7801的ADC是一种 12 位逐…

阅读更多...

LeetCode Hot100 108.将有序数组转为二叉搜索树

LeetCode Hot100 108.将有序数组转为二叉搜索树

题目： 给你一个整数数组 nums ，其中元素已经按升序排列，请你将其转换为一棵高度平衡二叉搜索树。高度平衡二叉树是一棵满足「每个节点的左右两个子树的高度差的绝对值不超过 1 」的二叉树。方法： class Solution {public…

阅读更多...

两个数组的交集（C++实现）

两个数组的交集（C++实现）

两个数组的交集题目思路代码代码讲解总结和意义交集和差集思路意义题目思路利用set容器的特性对输入的两个整数向量进行排序和去重操作，然后使用两个迭代器在有序的两个set容器中进行遍历，找出两个向量的交集，并将交集元素存储在结果向量…

阅读更多...

CSS：浏览器设置placeholder样式 / 微信小程序设置placeholder样式

CSS：浏览器设置placeholder样式 / 微信小程序设置placeholder样式

一、web 设置placeholder 设置浏览器的placeholder样式 ::-webkit-input-placeholder { /* WebKit browsers */color: #999; } :-moz-placeholder { /* Mozilla Firefox 4 to 18 */color: #999; } ::-moz-placeholder { /* Mozilla Firefox 19 */color: #999; } :-ms-input-p…

阅读更多...

JavaScript编程基础 – 对象

JavaScript编程基础 – 对象

JavaScript编程基础 – 对象 JavaScript Programming Essentials – Object 本文简要介绍JavaScript面向对象编程，如何实现其中的对象以及实例演示，希望对大家学习JavaScript有所帮助。 1. 面向对象编程特点面向对象编程(Object-Oriented Programmi…

阅读更多...

万字长文 - Python 日志记录器logging 百科全书 - 高级配置之日志文件配置

万字长文 - Python 日志记录器logging 百科全书 - 高级配置之日志文件配置

万字长文 - Python 日志记录器logging 百科全书 - 高级配置之日志文件配置前言在 Python 的logging模块中，它不仅提供了基础的日志功能，还拥有一系列高级配置选项来满足复杂应用的日志管理需求。说到logging 模块的高级配置，必须提及日…

阅读更多...

STM32_7（ADC）

STM32_7（ADC）

一、ADC ADC（Analog-Digital Converter）模拟-数字转换器ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量，建立模拟电路到数字电路的桥梁12位逐次逼近型ADC，1us转换时间输入电压范围：0~3.3V，…

阅读更多...

命名空间、字符串、布尔类型、nullptr、类型推导

命名空间、字符串、布尔类型、nullptr、类型推导

面向过程语言：C ——> 重视求解过程面向对象语言：C ——> 重视求解的方法面向对象的三大特征：封装、继承和多态 C 和 C 在语法上的区别 1、命名空间（用于解决命名冲突问题） 2、函数重载和运算符重载&#xf…

阅读更多...

C语言进阶之路-基本数据小怪篇

C语言进阶之路-基本数据小怪篇

目录一、学习目标： 二、数据基本类型整型浮点型 / 实型字符字符串布尔型数据三、重要的杂七杂八知识点常量与变量标准输入 sizeof运算符： 类型转换数据类型的本质整型数据尺寸可移植性整型拿下第一个C语言程序总结一、学…

阅读更多...

MySQL数据库主从集群搭建

MySQL数据库主从集群搭建

快捷查看指令 ctrlf 进行搜索会直接定位到需要的知识点和命令讲解（如有不正确的地方欢迎各位小伙伴在评论区提意见，博主会及时修改） MySQL数据库主从集群搭建主从复制，是用来建立一个和主数据库完全一样的数据库环境&#xff0c…

阅读更多...

win10安装pytorch（py39）

win10安装pytorch（py39）

cuda≤11.6，观察控制面板观察torch对应cuda版本 https://download.pytorch.org/whl/torch/ 安装cuda11.6.0 CUDA Toolkit Archive | NVIDIA Developer cmd输入nvcc -V 编辑国内镜像源 .condarc anaconda prompt输入查看环境 conda env list 安装py3.9…

阅读更多...

推荐文章

最新文章