论文标题:AI-enabled Audio and Chat Collaboration Services
中文标题:人工智能增强的音频和聊天协作服务
作者信息:
- Emil P. Andersen, Norwegian Defence Research Establishment (FFI), Kjeller, Norway
- Jesper R. Goksør, Sindre E. Halleraker, Ole P. Myhre, Tobias S. Omdal, Herman H. Seternes, Leander S. Thorstad, Norwegian University of Science and Technology (NTNU), Trondheim, Norway
- Frank T. Johnsen, Simen Kvalø, Norwegian Defence Research Establishment (FFI), Kjeller, Norway
论文出处:MILCOM 2024 - 2024 IEEE Military Communications Conference (MILCOM)
摘要
本文研究了一种改善战术边缘使用的音频服务的方法,这些服务适用于网络环境被描述为断开、间歇和有限(DIL)的情况。研究者们考虑使用较新的人工智能语音识别系统,即Vosk和OpenAI的Whisper,为服务带来转录功能。将语音音频转换为文本将减轻网络的负担,这在DIL环境中是一个重要的考虑因素。为了展示改善音频服务的方法,研究者们引入了一个语音转文本(STT)应用程序,该程序实现了Vosk和Whisper作为转录模块。应用程序构建在包含转录、消息传递和VoIP的技术栈上。除了具有STT功能外,还实现了反向功能:文本转语音模块,将文本消息转换回音频供接收者收听。论文讨论了应用程序的设计和架构,详细说明了如何使用一套技术构建技术栈,这些技术有利于在DIL网络中使用的音频服务。应用程序需要在资源稀缺的战术边缘工作,因此评估了实现的转录器的资源使用情况。最后,研究了两种转录器的准确性,以评估它们提供的服务质量。
引言
北约IST-201研究任务组专注于在DIL环境中支持服务的互操作性及其对将来联合任务网络(FMN)的潜在影响。IST-201特别关注通信和协作服务,旨在改善北约任务中多国合作的战术层面。本文讨论了人工智能(AI)如何用于改善音频服务,改善包括三个方面:首先,使用AI进行音频处理可以获得STT功能,便于与基于文本的即时消息服务集成;其次,结合基于文本的聊天和生成性AI,可以获得文本到语音(TTS)功能,允许文本消息被朗读给接收者;第三,传输文本而非音频需要更少的数据,显著减轻网络负载。本文讨论了一个实际的设计和实现,该实现已作为开源发布,以惠及研究社区。
相关工作
IST-201的目标是研究改善和支持DIL环境中协作服务的方法。该组的第一篇论文[4]专注于实验基于AI的音频编解码器,以改善战术边缘的音频服务质量(QoS)。实验表明,谷歌开发的基于AI的音频编解码器Lyra[5]与目前北约低数据速率通信中使用的标准化编解码器表现相似。这些实验在理想条件下进行,并进行了客观测试。为了更好地理解基于AI的音频编解码器(如谷歌Lyra)的好处,可能需要在更现实的网络环境中进行实验,并进行主观测试。IST-176组专注于将物联网(IoT)应用于使用标准化技术连接武装力量[6]。IST-150组则致力于提供战术级别服务的建议,他们确定发布/订阅协议MQTT是战术联合系统中交换信息的合适选择[7]。本文扩展了如何使用MQTT作为音频服务间数据交换的方法。
技术
应用程序的技术栈由三个部分组成:转录、消息传递和VoIP,大部分使用Python构建,部分使用C++。设计围绕几个基础组件:首先是Linphone音频软件用于VoIP,因为它已经在IST201的第一轮实验中使用过,其中评估了编解码器[4]。其次是MQTT作为发布/订阅组件,实现消息传递并将软件跨网络集成。剩余的软件实现列表见表I。大多数代码用Python编写,Linphone Python库用C++编写。
系统架构
为了提供应用程序架构的概览,使用了4+1架构视图模型。这个模型包括逻辑视图、过程视图、开发视图和物理视图。
测试
测试部分包括STT性能测试、功能测试、资源测试和准确性测试。STT性能测试比较了Vosk和Whisper两个STT组件的准确性、错误率和速度。功能测试验证了应用程序的各项功能和非功能需求。资源测试旨在找到应用程序在有限环境下运行所需的最小资源量。准确性测试评估了Linphone集成与转录器的协同工作情况。网络影响测试展示了通过STT技术,可以将原始音频的数据负载从每秒千比特减少到每秒比特的范围,显著释放网络带宽。
结论和未来工作
本文研究了在DIL环境中使用生成性AI支持协作音频服务的方法。研究了三种改善音频服务的方式:使用Vosk和Whisper自动语音识别系统实现音频服务的STT功能;提供TTS功能,允许转发的文本被朗读给接收者;发送文本消息减少了网络负载。Vosk和Whisper在测试中均显示出有希望的结果。在资源使用方面,Vosk比Whisper表现更好,但应考虑对不同语言的支持。两种自动语音识别系统均显示出良好的准确性,表明它们与Linphone音频软件集成良好。通过IST-201,目标是继续实验,以改善战术边缘的协作服务,包括音频服务。本文开发的应用程序满足了许多推进这项工作所需的功能和非功能需求。