文章目录
- 微软小冰全双工
- 字节大模型语音交互[Language Model Can Listen While Speaking](https://arxiv.org/html/2408.02622v1)
微软小冰全双工
- 全双工的定义:一路持续的听,upload audio;一路持续的输出,download audio;
- 涉及对输入音频的理解,包括语义理解,场景处理【是否多人对话,是在和机器人对话还是接听电话,混响降噪等】,节奏控制【比如有多段回复在进程池中,需要控制下一句回复什么,是否有的句子不需要回复,是否有的需要提高优先级,以及是否打断用户,哪个时间点回复】
字节大模型语音交互Language Model Can Listen While Speaking
- speaking的同时,将此时的输入采集进来一起送给AR mdoel; w2v模型,将采集的音频转成token;
- 尝试了几种特征融合的方式,发现pre-fusion最有效果;