语音增强学习路线图Roadmap

news2025/4/12 13:18:38

语音增强算是比较难的研究领域，从入门到精通有很多台阶，本文介绍一些有价值的书籍，值得反复阅读。主要分为基础类和进阶类书籍，大多都是理论和实践相结合的书籍，编程实践是抓手,让知识和基础理论变扎实。

基础书籍

《信号与系统》，打开信号的大门。

《数字信号处理（matlab版）》第四版，打开数字处理的大门。

《深入浅出数字信号处理》书如其名，概念理解更扎实。

进阶书籍

《自适应滤波器原理》，打开自适应滤波器的大门。

《Speech Enhancement: Theory and Practice》，作者是Philips Loizou。如果说有哪本书是“学习传统单通道语音增强，看这一本就够了”，那就是这本了。而且本书第一版有中文版，更是少有的语音增强中文资料。这本书覆盖了单通道语音增强传统方法的方方面面，包括谱减法、维纳滤波、子空间方法、统计信号分析、SPP估计、噪声估计、信噪比估计，该有的都有了。作者在第二版还探讨了传统方法的不足，作了一些Binary Gain方面的探索。可惜Loizou教授英年早逝，第二版已成为绝响了。

《Digital Speech Transmission: Enhancement, Coding and Error Concealment》，作者是Peter Vary, Rainer Martin。这本书覆盖面更广些，除了单通道语音增强，还包括了音频编码、音频差错控制、多通道语音增强、回声消除，单通道语音增强方面也简单扼要地把各种信号处理方法介绍了一遍。这本书还是挺实用的，作为音频信号处理方面的参考书比较全面。

《Sound Capture and Processing: Practical Approaches》，作者Ivan J. Tashev现在是微软研究院做语音处理方向的专家。这本书大概是作者多年专业经验的总结，覆盖了音频采集、单通道去噪、麦克风阵列信号处理、声源定位、回声消除、去混响，所以特别适合研究语音前段信号处理的读者。另外在微软的官网可以看到作者项目组的研究方向，最新的的文章主要都是机器学习在语音信号处理方面的应用，也是很好的参考资料。

《Audio Source Separation and Speech Enhancement》，由多位作者合编，是语音增强方面最新鲜的参考资料，2018年才刚刚出版。这本书涉及的话题很广，也有很多前沿的研究成果，主要都是围绕语音增强和语音源分离两个话题。除了前面几本书所涉及到的单通道/多通道语音增强、声源定位、去混响之外，这本书还介绍了大量的语音分离的信号处理和机器学习方法, 包括了聚类分析、独立成分分析（ICA）、非负矩阵分解（NMF）、高斯混合模型（GMM）等等。此书涉及的话题庞杂，而每章的篇幅有限，所以还需要和其他资料结合起来才能够理清细节。