密歇根大学、墨西哥国家天体物理研究所和光学与电子研究所的研究人员正在使用人工智能模型来破译狗的语言。
在国际会议上提出的新研究展示了先进的人工智能 模型如何帮助人类了解动物。
密歇根大学人工智能实验室主任 Rada Mihalcea 强调了这项研究的重要性:对于与我们共享这个世界的动物,我们还有很多不了解的地方。
人工智能的进步有可能彻底改变我们对动物交流的理解。
该研究使用了先进的语音识别模型 Wav2Ve c2,它可以通过吠叫来确定狗的情绪、性别和品种。
使用两个不同的数据集进行训练和比较:一个专门针对狗吠声进行训练,另一个针对人类语音并对吠叫进行微调。
该模型经过 1000 小时人类语音录音的预训练,显示出最佳结果。
在完善了包含 74 只狗(42 只吉娃娃犬、21 只法国贵宾犬和 11 只雪纳瑞犬)的发声数据集后,她能够以 62% 的准确率识别情绪、以 62% 的准确率识别品种、以 69% 的准确率识别性别,并识别出特定狗的准确率。准确率 50%。
这些结果超过了仅接受狗吠训练的模型的结果,表明人类语音中识别的声音和模式可以为理解动物提供基础。
先前的研究表明,猴子和土拨鼠(松鼠科啮齿动物)发出的声音可以根据上下文进行预测。研究人员认为,狗的发声也与环境密切相关。
在这项研究中,狗的情绪包括攻击性吠叫、正常吠叫、消极吠叫和咕噜声。
尽管狗会经历更多的情绪,但这些都是数据集中代表的声音。
我们的研究使用最初针对人类语音进行训练的语音处理模型,为如何利用现有技术理解狗叫的细微差别打开了一个新窗口。