关于百度、微软语音合成的实现案例

news2025/4/17 6:31:30

关键词

自助机产品、排队呼叫功能、网络喇叭、百度语音合成SDK、微软TTS

阅读建议

对自助机产品功能扩展感兴趣的读者、需要实现远程语音呼叫功能的开发者、想要了解网络喇叭选型及其使用的技术人员、对百度语音合成SDK和微软TTS感兴趣的开发者

阅读时长

预计阅读时长：15-20分钟。这个阅读时长是基于文章内容的详细程度和技术深度来预估的，读者可以在这个时间内较为全面地了解整个项目的需求、解决思路、准备工作以及具体的开发工作。

需求

解决思路

准备工作

开发工作

准备

百度语音合成SDK（短文本）的使用

申请账号获得授权

调用百度语音合成SDK

微软TTS的使用

获取当前Windows中的发音人信息：

调用微软TTS

其他代码

需求

近日公司的自助机产品要在现有自助服务功能的基础上，增加一个排队呼叫功能。考虑到现有自助服务需要对申请人进行语音提示，新增的排队呼叫发声不能放在本地，应另外想办法。

解决思路

经研究采用了网络喇叭的方式：本地语音提示，仍然采用本机TTS并发声播放；另购入一个网络喇叭，在需要对排队人员进行呼叫时，本机从服务器获取呼叫信息（排队号、窗口），调用网络喇叭自带的TTS，或者使用互联网（如百度开放平台）的语音合成，实现远端（喇叭安装在等候区上方）播放。

准备工作

网络喇叭的选型：由于等候区上方的吊顶周边无电源，故选择了一款支持POE供电的网络喇叭。喇叭自带配套软件，可实现文本合成、实时采集等功能。

POE供电模块：网络喇叭功率20W，需要选择单口供电功率20W以上的POE交换机或者供电模块。

将POE交换机连接电源，自助机连接网线至POE交换机，再从该交换机引出一根网线，经由吊顶穿线，连接等候区上方的吊装网络喇叭。

开发工作

准备

在Visual Studio中，使用Nuget安装Baidu.Aip包

使用Nuget安装System.Speech包，并添加“using System.Speech.Synthesis;”的引用

百度语音合成SDK（短文本）的使用

申请账号获得授权

注册百度开发者平台账号，新建应用并申请百度云语音合成服务，最终得到API_KEY、Secret_KEY两个参数值。

调用百度语音合成SDK

var API_KEY = this.txtAppKey.Text;
var SECRET_KEY = this.txtSecreKey.Text;
var _ttsClient = new Baidu.Aip.Speech.Tts(API_KEY, SECRET_KEY);
_ttsClient.Timeout = 60000; // 修改超时时间
// 可选参数
var option = new Dictionary < string,
    object > () {
        {
            "spd",
            GetStandardSpeed(this.trbSpeed.Value)
        }, // 语速，取值0-15，默认为5中语调
        {
            "vol",
            GetStandardVolume(this.trbVolume.Value)
        }, // 音量：基础音库取值0-9
        {
            "per",
            cbBaiduReader.SelectedIndex
        }, // 发音人：度小美=0，度小宇=1，度逍遥（基础）=3，度丫丫=4
        {
            "aue",
            6
        } //下载的文件格式, 3：mp3(default) 4： pcm-16k 5： pcm-8k 6. wav
    };
// 使用提供的文本和可选参数进行语音合成  
var result = _ttsClient.Synthesis(this.txtContent.Text.Trim(), option);  
// 检查结果的错误代码，如果为0（或result.Success为真），表示合成成功  
if (result.Success) // 或 result.ErrorCode为0  
{  
    // 使用MemoryStream来读取合成后的语音数据  
    using (MemoryStream ms = new MemoryStream(result.Data))  
    {  
        // 使用SoundPlayer来播放语音  
        using (System.Media.SoundPlayer sp = new System.Media.SoundPlayer(ms))  
        {  
            sp.Play();  
        }  
    }  
}

注：由于System.Media.SoundPlayer仅能播放wav，故百度语音合成参数“aue”固定位6（wav格式）。

微软TTS的使用

获取当前Windows中的发音人信息：

// 使用SpeechSynthesizer类创建一个语音合成器实例，并确保在完成后释放资源  
using (SpeechSynthesizer synthesizer = new SpeechSynthesizer())  
{  
    // 遍历并获取系统已安装的所有语音  
    foreach (var voice in synthesizer.GetInstalledVoices())  
    {  
        // 获取当前语音的详细信息  
        var info = voice.VoiceInfo;  
        // 将语音的名称添加到comboBox1的下拉列表中，供用户选择  
        comboBox1.Items.Add(info.Name);  
    }  
}

调用微软TTS

// 使用SpeechSynthesizer类创建一个新的语音合成器实例  
using(var synthesizer = new SpeechSynthesizer()) {
    // 将语音输出设置为默认音频设备  
    synthesizer.SetOutputToDefaultAudioDevice();

    // 从comboBox1中选择一个语音，这里的comboBox1可能是一个下拉列表，用于选择不同的语音  
    synthesizer.SelectVoice(comboBox1.Text);

    // 设置语音的音量，音量值通过调用GetStandardVolume函数和trbVolume控件的值来确定  
    synthesizer.Volume = GetStandardVolume(this.trbVolume.Value);

    // 设置语音的语速，语速值通过调用GetStandardSpeed函数和trbSpeed控件的值来确定  
    synthesizer.Rate = GetStandardSpeed(this.trbSpeed.Value);

    // 读取txtContent文本框中的内容，并去除首尾的空白字符，然后使用语音合成器朗读这段文本  
    synthesizer.Speak(this.txtContent.Text.Trim());
}

其他代码

另外，考虑到百度语音合成和微软TTS的音量、语速的取值范围不尽相同，故编写二者标准化方法进行转换：

/// <summary>
/// 输入是微软TTS的值（在0到100之间）
/// </summary>
/// <param name="currentvolume"></param>
/// <returns></returns>
private int GetStandardVolume(int currentVolume) {
    int volume = 0;
    if (currentTTSEngine == CurrentTTSEngine.Baiddu)
        volume = (int)(0.09 * currentVolume); // 将输入映射到0到9之间
    else
        volume = currentVolume;
    return volume;
}
/// <summary>
/// 输入是微软TTS的值（在-10到10之间）
/// </summary>
/// <param name="currentSpeed"></param>
/// <returns></returns>
private int GetStandardSpeed(int currentSpeed) {
    int speed = 0;
    if (currentTTSEngine == CurrentTTSEngine.Baiddu)
        speed = (int)(0.75 * (currentSpeed + 10) + 0.5); //将输入映射到0到15之间
    else
        speed = currentSpeed;

    return speed;
}

至于上面映射的线性关系参数的确定，让AI帮了忙：