UE5智能语音
哈喽,大家好,我叫人宅,很高兴和大家一起分享本套课程,阿里云智能语音UE5版本开发。阿里云智能语音一共分为 语音合成,语音识别,什么是语音合成,它可以将您的文字转化成您设定的任何声音,并且播放出来。什么是语音识别,可以将您的音频或者是您的wav格式的本地语音通过阿里云生成具体文字,同样也支持实时翻译,比如翻译为英文,日文,俄文等。
本套课程是一套综合实战课程,我们不是只给大家讲解如何使用阿里云智能语音,而是封装它。封装阿里云智能语音sdk并不简单,里面坑不少,我们会带着大家一一解决,比如UE5打包阿里云SDK最常见的bug,libcur冲突,这个应该怎么解决。本套课程您可以学习到那些呢?
如何整合阿里云SDK语音识别 语音合成,而且我们还会讲解如何通过HTTP协议接通语音合成,如何通过C++实现录音,如何播放wav格式的音频,如何内存播放音频,并且我们还会学习到如何使用UE5多线程技术,异步技术来高效封装我们的库。如果您正在封装类似的库,苦于无从下手,那么这套课程很适合您,接下来我们将详细介绍本套课程的具体内容。
第一章 UE5接通阿里云智能语音Nls库
本章将会讲解如何接通Nls库到UE5,其中里面涉及到的细节,坑,如何规避,如何解决,如何通过打包自动拷贝lib和dll到项目中。
第二章 Nls日志与配置
本章我们将会通过我们接入好的库 自架构一个配置系统,方便我们配置密钥和账户以及APPKey等重要信息,当然我们也可以通过蓝图配置。
第三章 实时语音框架架构
本章将会架构实时语音框架,为了便于测试,我们采用读取本地文件的方式来测试实时语音。通过这一章节我们会学习什么是PCM,它内部的原理是什么,如何使用UE5多线程技术,异步策略,代理负载等知识综合实战。
第四章 实时语音封装
本章承接第三章内容,对内容封装,如何并发多个音频,如何设计异步的蓝图回调,如何解决回调语音识别乱码问题等。
第五章 一句话语音识别
本章将会为大家带来一句话语音识别,如何将本地的wav音频通过代码,经过阿里云,翻译成中文,如何并发识别。
第六章 Nls的语音合成封装
本章我们会带着大家一起封装Nls的自带语音合成功能,目前这个库语音合成C++版本还有一些问题,我们直面这些问题,如果我们自己封装库的时候如何避免这些问题等。
第七章 动态令牌与项目打包
本章我们会讲解如何封装Nls的动态令牌,原先我们的生成采用的是手动复制,这次我们将采用动态生成,并且我们会讲解如何判定令牌是否过期,是否重新生成。并且我们还会讲解如何UE5打包,如何解决libcur与UE5冲突的问题,以后我们再封装阿里云SDK,这个问题出现频率很高。
第八章 HTTP框架架构
本章节我们会手把手建立一套简易的HTTP访问请求框架,方便我们后面使用HTTP协议。我们为什么这么做呢?原来的Nls库在语音合成部分有bug,每次下载的音频导致奔溃,所以我们将带着大家通过HTTP来自架构一个音频可下载功能。
第九章 HTTP语音合成
本章节我们会讲解如何通过HTTP来接通阿里云语音合成协议,如何POST,如何GET,如何通过HTTP轮询阿里云智能语音服务器,如何下载资源到本地等。当然我们还会讲解Json解析等知识。
第十章 如何播放wav格式的声音
本章我们将会封装跨平台播放架构,如何播放wav格式的音频,比如我们在做短视频的时候,可以直接将我们的文字发送给阿里云,它会帮我们生成一段音频,这段音频我们可以通过内存播放也可以通过本地文件播放。
第十一章 麦克风录音
本章我们会讲解如何架构跨平台声音采集系统,如何采集麦克风声音,本章内容将为实时语音做准备。
第十二章 PCM转WAV格式
本章将手把手一起写一个PCM转Wav格式的方法,我们通过麦克风将声音采集为PCM后是没有办法通过播放器播放,这个时候就需要转换策略。本章会详细讲解wav格式,如何将波数据转为wav等。
第十三章 实时语音
本章会将第十一章的内容合并到我们的实时语音系统,当我们开启实时传送的时候,可以将语音动态发送到阿里云智能语音,动态识别生成文字,整个过程都是实时的。除此之外我们还会讲解如何录制音频数据,并且保存到本地磁盘等内容。
学完本套课程您将会掌握第三方库如何高效封装,如何使用HTTP协议和服务器交互,什么是语音识别,什么是语音合成,并且理解PCM格式以及WAV格式,也知道如何封装跨平台插件方法,如何播放wav格式数据,如何录制wav格式的数据到磁盘。如果您想开发短视频制作软件方向或者是数字人方向,或者是实时翻译软件方向,卡在阿里云智能语音库整合上,无法短时间内解决各种冲突,那么这套课程非常适您。我们知道授人以鱼不如授人以渔,把真正的方法交给大家,以后再整合其他库将变得得心应手。