Speech | 语音处理,分割一段音频(python)

news2024/10/7 6:40:24

本文主要是关于语音数据在处理过程中的一些脚本文件以及实例,所有代码只需要更改所需处理的文件路径,输出路径等,全部可运行。

目录

所需环境

方法1:将一整段音频按时间批量切成一个一个音频

方法2:将一整段音频按语句停顿批量切成一个一个音频

方法3:将一个文件夹内的几整段音频批量切成一个一个音频

3.1.数据格式:一个文件夹下的长几分多的音频(wav文件)按固定秒数切割

3.2.数据格式:一个文件夹下的长几分多的音频(mp3文件)按固定秒数切割

3.3.数据格式:一个文件夹下的长几分多的音频(wav文件)按语句停顿切割

扩展

将pcm文件批量处理成wav文件

Linux下查询文件夹中文件数量的方法

使用ls命令和wc命令

WAV格式文件详解


所需环境

本文环境:Linux

pydub(安装:pip3 install pydub)

ffmpeg(apt install ffmpeg)

方法1:将一整段音频按时间批量切成一个一个音频

数据格式:一个长三分五十秒的音频

# split_wav_time.py
from pydub import AudioSegment
from pydub.utils import make_chunks

audio = AudioSegment.from_file("his_one/1.wav", "wav")

#size = 10000  #切割的毫秒数 10s=10000
size = 60000  #切割的毫秒数 60s=60000

chunks = make_chunks(audio, size)  #将文件切割为60s一个

for i, chunk in enumerate(chunks):
    chunk_name = "new-{0}.wav".format(i)
    print(chunk_name)
    chunk.export(chunk_name, format="wav")

运行命令:

python split_wav_time.py

 结果:

方法2:将一整段音频按语句停顿批量切成一个一个音频

数据格式:一个长几分多的音频

利用split_on_silence(sound,min_silence_len,   silence_thresh,    keep_silence=400)函数

第一个参数为待分割音频,第二个为多少秒“没声”代表沉默,第三个为分贝小于多少dBFS时代表沉默,第四个为为截出的每个音频添加多少ms无声

from pydub import AudioSegment
from pydub.silence import split_on_silence
 
sound = AudioSegment.from_mp3("his_one/1.wav")
loudness = sound.dBFS
#print(loudness)
 
chunks = split_on_silence(sound,
    # must be silent for at least half a second,沉默半秒
    min_silence_len=430,
 
    # consider it silent if quieter than -16 dBFS
    silence_thresh=-45,
    keep_silence=400
 
)
print('Len:', len(chunks))
 
# 放弃长度小于2秒的录音片段
for i in list(range(len(chunks)))[::-1]:
    if len(chunks[i]) <= 2000 or len(chunks[i]) >= 10000:
        chunks.pop(i)
print('取有效分段(大于2s小于10s):', len(chunks))
 
'''
for x in range(0,int(len(sound)/1000)):
    print(x,sound[x*1000:(x+1)*1000].max_dBFS)
'''
 
for i, chunk in enumerate(chunks):
    chunk.export("cutwav_{0}.wav".format(i), format="wav")
    #print(i)

  结果:

方法3:将一个文件夹内的几整段音频批量切成一个一个音频

3.1.数据格式:一个文件夹下的长几分多的音频(wav文件)按固定秒数切割

from pydub import AudioSegment
from pydub.utils import make_chunks
import os, re

# # 循环目录下所有文件
for each in os.listdir("/workspace/tts/PolyLangVITS/history"): #循环目录
    
    filename = re.findall(r"(.*?)\.wav", each) # 取出.wav后缀的文件名
    print(each)
    if each:
        # filename[0] += '.wav'
        # print(filename[0])

        mp3 = AudioSegment.from_file('/workspace/tts/PolyLangVITS/history/{}'.format(each), "wav") # 打开mp3文件
#         # # mp3[17*1000+500:].export(filename[0], format="mp3") #
        size = 15000  # 切割的毫秒数 10s=10000

        chunks = make_chunks(mp3, size)  # 将文件切割为15s一块

        for i, chunk in enumerate(chunks):

            chunk_name = "{}-{}.wav".format(each.split(".")[0],i)
            print(chunk_name)
            chunk.export('/workspace/tts/PolyLangVITS/preprodata/his_out/{}'.format(chunk_name), format="wav")



 

 结果

3.2.数据格式:一个文件夹下的长几分多的音频(mp3文件)按固定秒数切割

from pydub import AudioSegment
from pydub.utils import make_chunks
import os, re
# #
# # 循环目录下所有文件
for each in os.listdir("D:/纯音乐"): #循环目录
    
    filename = re.findall(r"(.*?)\.mp3", each) # 取出.mp3后缀的文件名
    print(each)
    if each:
        # filename[0] += '.wav'
        # print(filename[0])

        mp3 = AudioSegment.from_file('D:/纯音乐/{}'.format(each), "mp3") # 打开mp3文件
#         # # mp3[17*1000+500:].export(filename[0], format="mp3") #
        size = 15000  # 切割的毫秒数 10s=10000

        chunks = make_chunks(mp3, size)  # 将文件切割为15s一块

        for i, chunk in enumerate(chunks):

            chunk_name = "{}-{}.mp3".format(each.split(".")[0],i)
            print(chunk_name)
            chunk.export('D:/纯音乐分解/{}'.format(chunk_name), format="mp3")```



 

 3.3.数据格式:一个文件夹下的长几分多的音频(wav文件)按语句停顿切割

 

# @ Elena
# @ Date : 23.9.4


import os, re
from pydub import AudioSegment
from pydub.silence import split_on_silence

# # 循环目录下所有文件
for each in os.listdir("/workspace/tts/PolyLangVITS/history"): 
    filename = re.findall(r"(.*?)\.wav", each) # 取出.wav后缀的文件名
    print(each)
    if each:
        sound = AudioSegment.from_file('/workspace/tts/PolyLangVITS/history/{}'.format(each), "wav")
        loudness = sound.dBFS
    #print(loudness)
 
    chunks = split_on_silence(sound,
        # must be silent for at least half a second,沉默半秒
        min_silence_len=430,
    
        # consider it silent if quieter than -16 dBFS
        silence_thresh=-45,
        keep_silence=400
    
    )
    print('Len:', len(chunks))
    
    # 放弃长度小于1秒的录音片段
    for i in list(range(len(chunks)))[::-1]:
        if len(chunks[i]) <= 1000 or len(chunks[i]) >= 10000:
            chunks.pop(i)
    print('Len (1s~10s wav file):', len(chunks))
    
    '''
    for x in range(0,int(len(sound)/1000)):
        print(x,sound[x*1000:(x+1)*1000].max_dBFS)
    '''
    
    for i, chunk in enumerate(chunks):
        chunk_name = "{}-{}.wav".format(each.split(".")[0],i) 
        chunk.export("/workspace/tts/PolyLangVITS/preprodata/his_out/{}".format(chunk_name), format="wav")
        #print(i)

结果

使用 file 查询  wav

(WAV文件格式是Microsoft的RIFF规范的一个子集,用于存储多媒体文件。WAV(RIFF)文件由若干个Chunk组成,分别为: RIFF WAVE Chunk,Format Chunk,Fact Chunk(可选),Data Chunk。具体格式如下:)

扩展

将pcm文件批量处理成wav文件

import wave
import os
 
filepath = "data/"  # 添加路径
filename = os.listdir(filepath)  # 得到文件夹下的所有文件名称
#f = wave.open(filepath + filename[1], 'rb')
#print(filename)
for i in range(len(filename)):
    with open("data/"+failename[i], 'rb') as pcmfile:
        pcmdata = pcmfile.read()
    with wave.open("data/"+filename[i][:-3] + '.wav', 'wb') as wavfile:
        wavfile.setparams((1, 2, 16000, 0, 'NONE', 'NONE'))
        wavfile.writeframes(pcmdata)

Linux下查询文件夹中文件数量的方法

使用ls命令和wc命令

使用ls命令的-l选项和管道操作符|结合wc命令来统计文件数量:

查询当前文件夹下带有“wav”的文件数量

ls -l | grep "wav" | wc -l

 

WAV格式文件详解

WAV文件格式是Microsoft的RIFF规范的一个子集,用于存储多媒体文件。WAV(RIFF)文件由若干个Chunk组成,分别为: RIFF WAVE Chunk,Format Chunk,Fact Chunk(可选),Data Chunk。具体格式如下:

音频文件参数简介
对于形如44100HZ 16bit stereo 或者 22050HZ 8bit mono参数描述的音频文件,其蕴含的文件参数包括:

采样率:声音信号在“模→数”转换过程中单位时间内采样的次数。
采样值(采样精度):每一次采样周期内声音模拟信号的积分值。
同时,每个采样数据记录的是振幅, 而采样精度取决于储存空间的大小。
对于单声道(mono)文件,采样数据为8位的短整数,同时其采样精度有:

1 字节(8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
2 字节(16bit) 可以细到 65536 个数, 即为 CD 标准;
4 字节(32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了。
对于双声道立体声(stereo)文件,每次采样数据为一个16位的整数(int),且采样是双份的,也为单声道文件的两倍。采样数据中高八位(左声道)和低八位(右声道)分别代表两个声道。

由于wav格式文件本质上为音频文件,即可根据文件的大小、采样频率和采样大小估算文件的播放长度。
更多可查看Microsoft WAVE soundfile format (sapp.org)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/973946.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

csdn关注打开文章,自动取关脚本(设置为仅粉丝查看的文章)

一. 内容简介 csdn关注打开文章&#xff0c;自动取关脚本(设置为仅粉丝查看的文章) 二. 软件环境 2.1 Tampermonkey 三.主要流程 3.1 创建javascript脚本 点击添加新脚本 就是在 (function() {use strict;// 在这编写自己的脚本 })();脚本&#xff0c;含解析 // UserS…

测试开发笔记2023年8月精华版

面向思维编写用例的小窍门测试是有发展前途的关于Python和Java竞争力当你觉得测试没意思时测试用例很难管理我为什么不学编程语言了一个测试背锅案例分析

无涯教程-JavaScript - HOUR函数

描述 HOUR函数返回时间值的小时。小时以整数形式给出,范围从0(上午12:00)到23(下午11:00)。 语法 HOUR (serial_number)争论 Argument描述Required/OptionalSerial_number 您想要找到的包含小时的时间。 可以输入时间 作为引号内的文本字符串(如" 6:45 PM") 为十…

SRM系统送样管理:优化供应链合作

一、SRM系统送样管理的定义&#xff1a; SRM系统送样管理是指利用供应商关系管理系统对供应商送样过程进行管理和控制的一系列活动。该管理模块涵盖了送样计划制定、样品跟踪、检验结果记录和供应商反馈等功能&#xff0c;以确保供应商提供的样品符合质量要求&#xff0c;并建…

【AIGC】【图像生成】controlNet介绍(原理+使用)

文章目录 安装1、ControlNet&#xff1a;AI绘画1.1、ControlNet的本质是文生图(txt2img)2.2、预处理器 & 模型选择1.3、参数配置 2、ControlNet 模型分类2.1、草图类(6个)2.2、高级特征类(3个)3.3、高级类(5个) 3、配置参数4、基本原理&#xff1a;可控的SD模型5.可视化效果…

CopilotHub招聘产品设计师;大模型岗位面试官的一线分享;AI应用创业的共识与非共识;LangChain学习手册 | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f916; CopilotHub 招聘产品设计师&#xff0c;AI Agent C 端产品、远程工作、无限制带薪假期 https://app.copilothub.ai 这是一家成立于202…

抖店电商运营,新开通抖店正确的起店方法,新手商家必看做店教程

我是王路飞。 当你的抖店开通之后&#xff0c;也做好了店铺的一些基础搭建工作&#xff0c;那么之后的任务&#xff0c;就是起店了。 只有起店之后&#xff0c;你的店铺权重才会越来越高&#xff0c;不管走自然流量还是找达人带货&#xff0c;都更有优势。 所以今天给你们分…

OpenWrt系统开发笔记

openWrt英文官网&#xff1a; https://openwrt.org/ 中文官网&#xff1a; http://www.openwrt.org.cn/ 一、开发环境及编译 在github上有两个源码使用的比较多   一个是lede,地址为&#xff1a;https://github.com/coolsnowwolf/lede   另一个为OpenWrt的官方源码&#…

【创新项目探索】大数据服务omnidata-hive-connector介绍

omnidata-hive-connector介绍 omnidata-hive-connector是一种将大数据组件Hive的算子下推到存储节点上的服务&#xff0c;从而实现近数据计算&#xff0c;减少网络带宽&#xff0c;提升Hive的查询性能。目前支持Hive on Tez。omnidata-hive-connector已在openEuler社区开源。 …

SwiftUI简单基础知识学习

以下是一个大致的学习计划&#xff0c;将SwiftUI的知识分成12个主题&#xff1a; SwiftUI 简介和基础语法视图和布局状态和数据流按钮和用户输入列表和数据展示导航和页面传递动画和过渡效果手势和交互绘制和绘图多平台适配网络和数据请求实际项目实践和高级主题 每个主题可以…

rac异常hang死故障分析(sskgxpsnd2)

x86虚拟化的平台麒麟系统的一套RAC。事件梳理20:24左右&#xff0c;发现一个节点hang死&#xff0c;关闭操作没有响应。关闭hang死节点&#xff0c;另一个节点也发生hang死&#xff0c;然后重启了另一个节点。 无效分析部分 检查gi的alert日志 有一个很大跨度的时间回退 再看…

辛普森近似求值

辛普森近似求解 公式证明任意一个对称区间的一元二次函数定积分拆分求和:strawberry: 总结 : 如果我们把六分之一乘进去我们只不过在指定的区间采集数据六个求平均&#xff0c;乘以采集数据区间的微元宽度&#xff08;历史上不少的手稿用h&#xff0c;翻译为微元高度&#xff0…

Python虚拟环境venv下安装playwright介绍及记录

playwright介绍 Playwright是一个用于自动化Web浏览器测试和Web数据抓取的开源库。它由Microsoft开发&#xff0c;支持Chrome、Firefox、Safari、Edge和WebKit浏览器。Playwright的一个主要特点是它能够在所有主要的操作系统&#xff08;包括Windows、Linux和macOS&#xff09…

OS 磁盘 从生磁盘到文件 文件使用磁盘

通过磁头和磁盘的电生磁&#xff0c;磁生电来写读通过往控制器写入扇区sect 磁头head 柱面port 等位置&#xff0c;通过DMA总线盗用技术&#xff0c;将信息读入内存或写入磁盘&#xff0c;重点在于传递数值&#xff0c;使用out指令&#xff0c;将几个信息拼接起来 寻道&#xf…

正中优配:消费电子概念走高,捷荣技术斩获5连板,凯旺科技等大涨

消费电子概念5日盘中走势活泼&#xff0c;截至发稿&#xff0c;凯旺科技涨超12%&#xff0c;华映科技、合力泰、瀛通通讯、捷荣技能、实益达等涨停&#xff0c;信维通讯涨超8%。值得注意的是&#xff0c;捷荣技能已连续5个交易日涨停&#xff0c;华映科技4日斩获3板。 消息面上…

【RabbitMQ】介绍及消息收发流程

介绍 RabbitMQ 是实现 AMQP&#xff08;高级消息队列协议&#xff09;的消息中间件的一种&#xff0c;最初起源于金融系统&#xff0c;用于在分布式系统中存储转发消息&#xff0c;在易用性、扩展性、高可用性等方面表现不俗。 RabbitMQ 主要是为了实现系统之间的双向解耦而实…

【校招VIP】前端专业课考点之CSMA/CD协议

考点介绍&#xff1a; CSMA/CD&#xff0c;载波监听多点接入/碰撞检测&#xff0c;是广播型信道中采用一种随机访问技术的竞争型访问方法&#xff0c;具有多目标地址的特点。它通过边发送数据边监听线路的方法来尽可能减少数据碰撞与冲突。采用分布式控制方法&#xff0c;所有结…

QT 一个简易闹钟

1 效果图 pro QT core gui texttospeechgreaterThan(QT_MAJOR_VERSION, 4): QT widgetsCONFIG c11# The following define makes your compiler emit warnings if you use # any Qt feature that has been marked deprecated (the exact warnings # depend on your c…

PE文件格式详解

摘要 本文描述了Windows系统的PE文件格式。 PE文件格式简介 PE&#xff08;Portable Executable&#xff09;文件格式是一种Windows操作系统下的可执行文件格式。PE文件格式是由Microsoft基于COFF&#xff08;Common Object File Format&#xff09;格式所定义的&#xff0c…

16|女性视角:李清照笔下独到的细腻

好诗相伴&#xff0c;千金不换。你好&#xff0c;我是天博。 前面我们说了这一章的主题是“见众生”&#xff0c;见众生就是读诗词里的人性。截止到现在&#xff0c;我们已经感受了杜甫面对人民的悲悯&#xff0c;刘禹锡面对贬谪的耿直&#xff0c;而今天这一讲&#xff0c;我…