端到端语音识别案例

《DeepSeek大模型高性能核心技术与多模态融合开发（人工智能技术丛书）》(王晓华)【摘要书评试读】- 京东图书

语音识别这一技术正如其名，是通过精密地解析说话人的语音来识别并准确转写出其所说的内容。它不仅仅是一个简单的转录过程，更是一项融合了声学、语言学、计算机科学等多个学科领域精华的高科技产物。在现代社会中，随着人工智能技术的飞速发展，语音识别技术正日益显现出其巨大的应用潜力和广阔的市场前景。

无论是在智能手机上的语音助手，还是在家庭中的智能音箱，甚至是在车载系统中，语音识别技术都扮演着举足轻重的角色。它能够将人们的口头语言迅速转化为文字信息，从而极大地提高了交互的便捷性和效率。不仅如此，语音识别还在无障碍沟通、语音搜索、自动化客服等众多领域发挥着不可或缺的作用，为人们的生活和工作带来了前所未有的便利。

11.3.1 全中文音频数据集的准备

我们将使用全中文的音频信号进行转换，这里首选使用aidatatang_200zh数据集作为我们的音频转换目标。aidatatang_200zh是一个用于语音识别的数据集，包含30万条口语化句子，由6408人录制，涵盖不同年龄段和34个省级行政区域。录音环境为安静的室内，采用16kHz 16bit的wav单声道格式，总大小为18G。该数据集适用于语音识别、机器翻译和声纹识别等场景，标注准确率不低于98%。

Aidatatang_200zh是一套开放式中文普通话电话语音库。语料库长达200小时，由Android系统手机（16kHz，16位）和iOS系统手机（16kHz，16位）记录。邀请来自中国不同重点区域的600名演讲者参加录音，录音是在安静的室内环境或环境中进行，其中包含不影响语音识别的背景噪音。参与者的性别和年龄均匀分布。语料库的语言材料是设计为音素均衡的口语句子。每个句子的手动转录准确率大于98％。

读者很容易在互联网上搜索到这个数据集的相关内容，下载解压后的单个文件如图11-8所示。

图11-8 载解压后的单个文件示例

我们说过，对于第一步单文本生成来说，并不需要对语音数据进行批匹配，因此在这一步进行数据读取时仅仅读取txt文本文件中的数据即可。

通过解压后的文件可以看到，Aidatatang_200zh提供了600个文件夹，每个文件夹中存放若干个文本与语音对应的文件，其通过文件名进行一一对应。

首先，第一步是读取所有的文件，代码如下所示。

import os
# 这个是列出所有目录下文件夹的函数
def list_folders(path):
    """
    列出指定路径下的所有文件夹名
    """
    folders = []
    for root, dirs, files in os.walk(path):
        for dir in dirs:
            folders.append(os.path.join(root, dir))
    return folders
from torch.utils.data import DataLoader, Dataset

def list_files(path):
    files = []
    for item in os.listdir(path):
        file = os.path.join(path, item)
        if os.path.isfile(file):
            files.append(file)
    return files

#这里作者使用的是自定义的数据集存放位置，读者可以改成自己所对应的语音数据集位置
dataset_path = "D:/语音识别_数据集/aidatatang_200zh/dataset"

folders = list_folders(dataset_path)	#获取了所有文件夹

for folder in tqdm(folders):
    _files = list_files(folder)		
    for _file in _files:
        if _file.endswith("txt"):
            with open(_file,encoding="utf-8") as f:
                line = f.readline().strip()

其中folders是Aidatatang_200zh目录下所有文件夹，list_folders的作用是对每个文件夹进行重新读取。

接下来，一个非常重要的内容就是建立相应的字库文件，这里我们可以在读取全部文本数据之后使用set结构对每个字符进行存储。

vocab = set()
……
for folder in tqdm(folders):
    _files = list_files(folder)
    for _file in _files:
        if _file.endswith("txt"):
            with open(_file,encoding="utf-8") as f:
                line = f.readline().strip()
                for char in line:
                    vocab.add(char)    
vocab = list(sorted(vocab))

11.3.2 音频特征的提取与融合

梅尔频谱作为音频提取的主要方法，其作用在于对提取的音频信号进行高效的转换与分析。通过模拟人类听觉系统的特性，梅尔频谱能够将复杂的音频数据转化为易于处理和解读的频域表示，从而揭示出音频信号中的关键特征和潜在结构。这种转换不仅有助于简化音频处理流程，还能提高特征提取的准确性和效率，为后续的音频识别、分类和合成等任务奠定坚实基础。因此，梅尔频谱在音频处理领域具有广泛的应用价值，是研究人员和工程师们不可或缺的工具之一。

梅尔频谱的独特之处在于其基于梅尔刻度的频率划分方式。与传统的线性频率刻度相比，梅尔刻度更符合人类听觉系统对频率的感知特性。在梅尔频谱中，低频段的分辨率较高，能够捕捉到更多的细节信息，而高频段的分辨率则相对较低，以适应人类对高频声音的不敏感性。这种特性使得梅尔频谱在处理具有丰富低频成分的音频信号时表现出色，如语音和音乐等。

此外，梅尔频谱还具有良好的抗噪性能和稳定性。在音频信号受到噪声干扰或质量下降时，梅尔频谱仍能有效地提取出有用的特征信息，保持较高的识别准确率。这使得梅尔频谱在实际应用中具有更强的鲁棒性和可靠性，能够满足各种复杂场景下的音频处理需求。

基于librosa库完成的特征信号提取，其代码如下所示。

# 计算梅尔频率图
def compute_melspec(y, sr, n_mels, fmin, fmax):
    """
    :param y:传入的音频序列，每帧的采样
    :param sr: 采样率
    :param n_mels: 梅尔滤波器的频率倒谱系数
    :param fmin: 短时傅里叶变换(STFT)的分析范围 min
    :param fmax: 短时傅里叶变换(STFT)的分析范围 max
    :return:
    """
    # 计算Mel频谱图的函数
    melspec = lb.feature.melspectrogram(y=y, sr=sr, n_mels=n_mels, fmin=fmin, fmax=fmax)  # (128, 1024) 这个是输出一个声音的频谱矩阵
    # 是Python中用于将音频信号的功率值转换为分贝(dB)值的函数
    melspec = lb.power_to_db(melspec).astype(np.float32)

    # 计算MFCC
    mfccs = lb.feature.mfcc(S=melspec)

    return melspec,mfccs

从上面代码可以看到，我们通过梅尔频谱获取到了梅尔特征以及梅尔频率倒谱系数，这是从不同的角度对语音特征进行提取。

接下来就是我们希望将提取到的特征进行融合，具体融合的方式可以在数据特征输入到模型之前完成，即在特征提取后，经过一个正则化处理使用在特定维度拼接的方式完成，代码如下所示。

# 对输入的频谱矩阵进行正则化处理
def mono_to_color(X, eps=1e-6, mean=None, std=None):
    mean = mean or X.mean()
    std = std or X.std()
    X = (X - mean) / (std + eps)
    _min, _max = X.min(), X.max()
    if (_max - _min) > eps:
        V = np.clip(X, _min, _max)
        V = 255. * (V - _min) / (_max - _min)
        V = V.astype(np.uint8)
    else:
        V = np.zeros_like(X, dtype=np.uint8)
    return V
……
def audio_to_image(audio, sr, n_mels, fmin, fmax):
    melspec,mfccs = compute_melspec(audio, sr, n_mels, fmin, fmax)    #(128, 688)
    melspec = mono_to_color(melspec)
    mfccs = mono_to_color(mfccs)
    spec = np.concatenate((melspec, mfccs), axis=0)
    return spec

这里需要注意，我们获取到的音频特征，由于其采样的方式不同，其数值大小也千差万别。因此，在进行concatenate拼接之前，需要进行正则化处理。

获取数据的完整代码如下：

from tqdm import tqdm
import os

# 这个是列出所有目录下文件夹的函数
def list_folders(path):
    """
    列出指定路径下的所有文件夹名
    """
    folders = []
    for root, dirs, files in os.walk(path):
        for dir in dirs:
            folders.append(os.path.join(root, dir))
    return folders
from torch.utils.data import DataLoader, Dataset

def list_files(path):
    files = []
    for item in os.listdir(path):
        file = os.path.join(path, item)
        if os.path.isfile(file):
            files.append(file)
    return files

dataset_path = "D:/语音数据库/aidatatang_200zh"
#dataset_path = "../dataset/aidatatang_200zh/"
folders = list_folders(dataset_path)
folders = folders[:5]

max_length = 18
sampling_rate = 16000
wav_max_length = 22#这里的计数单位是秒
context_list = []
token_list = []
wav_image_list = []

for folder in tqdm(folders):
    _files = list_files(folder)
    for _file in _files:
        if _file.endswith("txt"):#_file = "D:/aidatatang_200zh/G0084/T0055G0084S0496.txt"
            with open(_file,encoding="utf-8") as f:
                line = f.readline().strip()
                if len(line) <= max_length:

                    wav_name = _file.replace("txt", "wav")
                    audio, orig_sr = sf.read(wav_name, dtype="float32")  # 这里均值是 1308338,   0.8中位数是1730351,所以我采用了中位数的部分
                    audio = sound_untils.crop_or_pad(audio, length=sampling_rate * wav_max_length)  # 我的想法是把audio做一个整体输入，在这里就所有的都做了输入
                    wav_image = sound_untils.audio_to_image(audio, sampling_rate, 128, 0, sampling_rate//2) #输出的是(128, 688)

                    wav_image_list.append(wav_image)
                    #token_list.append(token)

np.save("./saver/wav_image_list.npy",wav_image_list)

这里为了加速模型的训练，我们首先读取了音频，并创建了融合后的音频特征，将其进行存储。为了将数据输入到模型中，还需要实现torch.utils.data.Dataset数据类。代码如下：

class TextSamplerDataset(torch.utils.data.Dataset):
    def __init__(self, token_list = token_list,wav_image_list = wav_image_list):
        super().__init__()
        self.token_list = token_list
        self.wav_image_list = wav_image_list

    def __getitem__(self, index):
        token = self.token_list[index]
        token = torch.tensor(token).long()
        token_inp, token_tgt = token[:-1], token[1:]

        wav_image = self.wav_image_list[index]#sound_untils.audio_to_image(audio, sampling_rate, 128, 0, sampling_rate//2) #输出的是(128, 688)
        wav_image = torch.tensor(wav_image,dtype=torch.float).float()

        return token_inp,wav_image,token_tgt

    def __len__(self):
        return len(self.token_list)

11.3.3 基于生成模型的端到端语音识别任务

我们需要完成的是基于端到端的语音识别任务，特别是使用生成模型将输入的语音特征转化为文本内容，遇到的第一个问题将会是如何将可变的生成文本与语音特征信号进行融合。

首先，我们采用将语音特征压缩特性的方式进行融合，即将多维的语音特征压缩成一维后与输入的可变长度的文本信息相加后进行处理，代码如下：

class ReshapeImageLayer(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.reshape_layer = torch.nn.Linear(688,model_cfg.dim * 2)

        self.norm = layers.LayerNorm(model_cfg.dim * 2)
        self.act = layers.SwiGLU()

    def forward(self,image):
        image = self.reshape_layer(image)
        image = self.norm(image)
        image = self.act(image)

        image = torch.permute(image,[0,2,1])
        image = torch.nn.AdaptiveAvgPool1d(1)(image)
        image = torch.permute(image,[0,2,1])

        return image

上面代码创建了一个简单的卷积层对信号进行提取，之后通过了AvgPool对特征进行压缩，在调整维度后进行返回。

对于生成模型来说，其核心就是采用注意力机制建立跨区域关注。因此，我们可以在创建因果掩码后完成生成模型的设计。代码如下：

class GLMSimple(torch.nn.Module):
    def __init__(self,dim = model_cfg.dim,num_tokens = model_cfg.num_tokens,device = all_config.device):
        super().__init__()
        self.num_tokens = num_tokens
        self.causal = model_cfg.causal
        self.device = device

        self.token_emb = torch.nn.Embedding(num_tokens,dim)
        self.layers = torch.nn.ModuleList([])

        for _ in range(model_cfg.depth):
            block = GLMBlock()
            self.layers.append(block)

        self.to_logits = torch.nn.Linear(dim, num_tokens, bias=False)
        self.reshape_layer = ReshapeImageLayer()
        self.merge_norm = layers.LayerNorm(dim)

    def forward(self,x,image = None):
        if not self.causal:
            mask = x > 0
            x = x.masked_fill(~mask, 0)
        else:
            mask = None
        x = self.token_emb(x)

        image = self.reshape_layer(image)

        for layer in self.layers:
            x += image
            x = self.merge_norm(x)
            x = x + layer(x, mask = mask)

        x = torch.nn.Dropout(0.1)(x)
        logits = self.to_logits(x)

        return logits

在上面代码中，GLMBlock是我们实现的经典的因果注意力模型，目的是将向量化处理后的可变文本特征与一维的语音特征相加后，输入到因果注意力模型进行计算。

为了配合因果注意力机制的输入，对于文本的最终输入，我们也可以采用比较巧妙的设计，代码如下：

@torch.no_grad()
def generate(
    self, seq_len, image=None, temperature=1., filter_logits_fn=top_k,
    filter_thres=0.99, pad_value=0., eos_token=2,                       return_seq_without_prompt=True, #这个的作用是在下面随机输出的时候，把全部的字符输出
    ):

    # 这里是我后加上去的,输入进来可以是list
    image = torch.tensor(image,dtype=torch.float).float()
    image = torch.unsqueeze(image,dim=0)
    image = image.to(self.device)

    prompt = torch.tensor([1])
    prompt = prompt.to(self.device)

    prompt, leading_dims = pack([prompt], '* n')

    n, out = prompt.shape[-1], prompt.clone()

    #wrapper_fn = identity if not use_tqdm else tqdm
    sample_num_times = max(1, seq_len - prompt.shape[-1])

    for _ in (range(sample_num_times)):
        logits = self.forward(out,image)
        logits = logits[:, -1]

        sample = gumbel_sample_once(logits, temperature=temperature, dim=-1)

        out, _ = pack([out, sample], 'b *')
        if exists(eos_token):
            is_eos_tokens = (out == eos_token)

            if is_eos_tokens.any(dim=-1).all():
                break

    out, = unpack(out, leading_dims, '* n')
    if not return_seq_without_prompt:
        return out

    return out[..., n:]

上面代码中，我们采用generate 函数来产生输入的文本内容，随后通过逐个添加字符的方式逐步扩充所给信息，进而利用下一个字符的预测来完成最终结果的构建。