【专题速递】音频生成、TTS和AIGC在音乐上的运用

news2026/2/11 13:47:16

AIGC的发展为音频带来了什么？AIGC如何赋能音乐创作？如何识别虚假音频？TTS可以在哪种场景下解决特定问题？7月29日LiveVideoStackCon2023上海站音频新体验专场，为您解答。

音频新体验

随着多媒体和通信网络技术的不断更新，以及新型音视频应用场景的不断涌现，音频处理技术向着更加智能化和沉浸化的趋势发展。人们对音频的听觉体验要求也逐步提高，各类场景下的声音体验更加清晰，并呈现声临其境的沉浸感。

议题介绍

TOPIC1《AIGC技术探索与应用创新》

江源科大讯飞讯飞音乐首席科学家

针对近年来元宇宙、AIGC、大模型等关键技术发展，分享科大讯飞在AIGC技术方上，围绕音频、视觉、认知三大领域的技术布局和探索研究，以及在相关行业的创新应用案例。期待与业界共同探讨，利用人工智能的力量建设美好数字世界。

演讲大纲：1.当前AIGC领域的发展；2. 科大讯飞在音频生成创作领域的进展和应用案例；3. 科大讯飞在视觉生成创作领域的进展和应用案例；4. 科大讯飞在认知智能大模型领域的进展和布局。

TOPIC2《音乐流媒体平台在音乐AIGC方面的探索》

邓阳网易云音乐音视频实验室资深音频算法工程师

随着音乐制作设备成本的不断降低，音乐产业正在经历一场前所未有的变革。为了在这个新的音乐时代中保持青春活力，我们决心打造一种新型音乐创作引擎，利用最先进的AI技术来赋能音乐的创作和体验过程。我们的愿景是将音乐从一种静态的媒介转变为一种具有实时交互性和可感知性的元素，让用户在创作过程中享受更加丰富的音乐创作体验。然而，复杂的技术壁垒和研发门槛使我们面临着诸多挑战。

本次分享将以音乐流媒体平台在音乐AIGC方面的探索为主题，深入探讨天音TY-AIGC内容生产引擎的架构设计思路。在第一部分，我们将从国际主流的音乐生产解决方案及其技术难点入手，详细介绍如何将云音乐生态与AIGC相结合，设计高可用音乐生产解决方案。在第二部分，我们将深入挖掘AIGC的关键技术线和技术点，包括架构设计、算法优化、音频处理和数据管理等方面的技术细节。最后，在第三部分，我们将分享TY-AIGC技术落地的具体产品和业务成果，为音乐产业的AI数字化升级贡献技术成果。

TOPIC3《音频人物特征生成与鉴别发展实践》

温正棋中科极限元总经理

音频人物特征生成与鉴别是对模仿的特定人声音进行鉴别的技术，在安全、网信、公安和通讯等领域发挥着关键作用。使用深度模仿技术生成的虚假音频已经非常逼真，相关开源代码在近4年间同比增多217%，生成虚假音频的门槛大幅降低，导致互联网和电信网络中非常容易混杂虚假音频。虚假音频对国家安全、社会稳定和财产安全都带来巨大危害，对虚假音频的鉴别和防御现已成为世界各国政府、企业乃至个人所关注的热点问题之一。

本次分享将分为三个部分，第一部分介绍音频人物特征生成相关的研究进展，第二部分介绍音频人物特征鉴别方面的工作，第三部分介绍在AIGC的浪潮下，音频人物特征鉴别面临新的挑战以及我们的对策。通过以上三个部分将为大家系统地介绍团队在音频人物特征生成与鉴别领域的工作进展。

TOPIC4《当“AI”遇见“爱”——人工智能情感技术如何赋能喜马拉雅创作生态》

林怡亭喜马拉雅珠峰实验室数据研发负责人

音频行业一直存在着创作周期长、投入成本高的问题。喜马拉雅为了解决这个问题，采用TTS（语音合成）技术，用AI为创作者赋能，更好地打造创作者生态。本次演讲将会介绍喜马拉雅是如何利用TTS针对特定场景进行跨语言合成、情感处理等，以及存在的难点和痛点。