回顾丨2023 SpeechHome 第三届语音技术研讨会

news2024/12/25 9:11:29

下面是整体会议的内容回顾:

18日线上直播回顾

18日上午9:30,AISHELL & SpeechHome CEO卜辉宣布研讨会开始,并简要介绍本次研讨会的筹备情况以及报告内容。随后,CCF语音对话与听觉专委会副主任、清华大学教授,国家工业信息安全发展研究中心人工智能所副所长刘永东对本次大会进行开幕致辞。

  开幕致辞

接下来是语音前沿技术音频生成两个主题的内容回顾。

  语音前沿技术

上午的语音前沿技术主题主题由AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是谢磊、万玉龙、李明

谢磊分享的主题是《西工大ASLP实验室语音生成模型新进展》。报告分享了西工大音频语音与语言处理实验室在语音生成方面的进展,包括拟人化语音合成,基于语音因素解耦的表现力语音合成,基于自然语言的风格迁移、音色生成和语音转换,高表现力与实时语音转换、以及Vec Tok Speech多任务语音大模型技术。

万玉龙分享的主题是《交互式AI中语音技术实践与探索》。本次报告主要介绍了3点内容:1、亿级终端智能助理所面临的语音技术挑战及解决思路;2、音频类生成式AI在智能助理产品的创新实践;3、业务视角下,交互式A对语音技术的期许与展望。

李明分享的主题是《多通道、多人及非基于声纹编码向量的特定人语音抽取》。首先介绍了不直接使用声纹编码向量作为目标人先验信息的特定人语音抽取模型设计,其次在多人同步抽取及多通道语音输入这两个方面介绍团队最近的一些研究成果。

 音频生成

下午的音频生成主题由西交利物浦大学助理教授李圣辰担任主持,分享嘉宾分别是武执政、吴志勇、王文武、雪巍、卢恒

武执政分享的主题是《Amphion: An Open-Source Audio, Music and Speech Generation Toolkit》。This talk will present an open-source audio, audio and speech generation toolkit, namelyAmphion. The Amphion toolkit is design for education and reproducible research purpose. This talkfirst presents the state of the art for generation tasks, and discuss the design goal, implementation andcomparison with existing toolkits.

吴志勇分享的主题是《面向表现力语音合成的多尺度风格建模与生成》。报告介绍了表现力语音合成在对说话风格、情感、语调等进行精细化建模,以提高合成语音的自然度和拟人化表现能力。它在有声读物、AI主播、人机对话交互等领域有广阔的应用前景。然而,它也面临一系列挑战和难点。针对如何有效提取和表示多尺度的风格特征,提出了一种面向表现力语音合成的多尺度风格建模方法,使用多尺度参考编码器提取目标语音的全局和局部风格特征,提高语音合成的可控性、表现力和灵活性;针对如何在不损失自然度和可懂度的前提下实现风格控制和转换,提出了一种基于分块的多尺度跨说话人风格迁移方法;针对如何生成富有表现力和多样性的语音韵律等,提出了一种基于去噪扩散概率模型的韵律预测器。实验结果验证了所提方法在表现力语音合成方面的有效性和优势。

王文武分享的主题是《Text to Audio Generation》。Text-to-audio generation aims to produce an audio clip based on a text prompt which is a languagedescription of the audio content to be generated. This can be used as sound synthesis tools for film makinggame design, virtual reality/metaverse, digital media, and digital assistants for text understanding by thevisually impaired. To achieve cross modal text to audio generation, it is essential to comprehend the audioevents and scenes within an audio clip, as well as interpret the textual information presented in naturaanquage. ln addition, learning the mapping and alianment of these two streams of information is cruciaExciting developments have recently emerged in the field of automated audio-text cross modal generation. lnthis talk, we will give an introduction of this field, including problem description, potential applicationsdatasets, open challenges, recent technical progresses, and possible future research directions. We will startwith the conditional audio generation method which we published in MLSP 2021 and used as the baselinesystem in DCASE 2023. We then move on to the discussion of several algorithms that we have developedrecently, including AudioLDM,AudioLDM2, Re-AudioLDM,and AudioSep, which are getting increasinglypopular in the signal processing, machine learning, and audio engineering communities.

雪巍分享的主题是《高速高质量零资源歌声合成》。主要介绍了歌声合成面临标注数据极度缺失的问题,精标成本较高,且音色有限;宽音域强表现力的要求对合成质量提出更高标准。介绍了CoMoSpeech和ZSinger,使得基于扩散模型的歌声合成方法真正可以实时部署于工业级应用,并无需标注数据即可对任意人音色进行建模及歌词/旋律控制。

卢恒分享的主题是《语音AIGC技术进展--音频技术在喜马拉雅的研发和落地应用》。主要介绍喜马拉雅语音AIGC技术,包括文本分析,语音生成技术以及风格转换的大模型的研究以及落地。同时介绍我们在语音识别、音效以及全景声方面的一些工作。

19日线下参会回顾

19日以线下会议的形式举办,众多语音领域大神云集,各路语音技术爱好者慕名而来。现场共有2个会场,分为3个主题,分别是“音频与大模型”“数据与大模型”“语音开源技术”,大家共同探讨了相关的技术问题。我们还穿插了丰富的抽奖茶歇环节,大家在参会的同时也可以放松休息。

以下是精彩的会议报告。 

  音频与大模型

上午的音频与大模型主题由北京邮电大学副教授/博导李蓝天担任主持,分享嘉宾分别是欧智坚、钱彦旻、张王优、李晨达、何磊、易江燕、栾剑、张超。 

欧智坚分享的主题是《语音大模型的若干思考与猜测》。报告结合ChatGPT的技术发展历程以及语音本身特点,汇报了对语音大模型研究的几个思考,对“未来语音大模型是怎么样的?”给出我们的猜测,包括:1、是否能实现有原则的无监督学习?2、语音识别大模型如何与语言模型有效结合?3、语音识别与语音合成,是否能有效互助?4、多语言语音识别系统中,是否需要IPA知识的运用?报告也将分享我们的若干进展。

钱彦旻分享的主题是《Self-Supervised Learning for High-Performance Robust Speaker Verification》Automatic speaker verification task has made great achievements using deep learning approacheswith the large-scale manually annotated dataset. However, it's very difficult and expensive to collect alarge amount of well-labeled data for system building. Recently, self-supervised speaker verificationhas attracted a lot of interest by the reason of its no-dependency on labeled data. This talk will brieflyintroduce an advanced self-supervised learning framework which can construct a robust speakerverification system with high performance without using any labeled data. With our proposedmethods, the gap between unsupervised and supervised representation learning is dramaticallyreduced for speaker verification, and an approaching performance of the fully supervised system isobtained with our self-supervised learning method on speaker verification. 

张王优李晨达在线上为大家分享的主题是《ESPnet 2023 开发进展》。报告介绍了ESPnet开源工具在语音增强方面的进展。ESPnet-SE 是2020年6月开始筹备的ESPnet子项目,目的是为ESPnet 提供丰富的前端语音处理功能,包括降噪、去混响和语音分离等。在两年多的时间里ESPnet-SE 累计添加了对 24 种语音增强模型(12 种单通道模型 +12 种多通道模型)的支持并配有 22个覆盖从数据准备到模型训练及评估等全流程的 recipes,其中部分 recipe 在 Hugging Face 上提供了相应的已训练模型。ESPnet-SE也提供了对其他语音前端开源工具的兼容,如允许在ESPnet中直接加载并训练来自Asteroid 工具的模型。除此之外,ESPnet-SE 提供了将前端模型和其他下游语音任务(语音识别、语音翻译、口语理解等)进行结合的接口和示例,使得我们能够很容易实现前端模型和不同后端任务的联合训练或评估。本次报告重点介绍了ESPnet-SE工具的特色功能以及使用方法,并对后续开发计划进行简单梳理。

 

嘉宾:欧智坚、何磊、钱彦旻、易江燕、栾剑、张超 

圆桌会由李蓝天和卜辉主持,议围绕着“各位专家对大模型 GPT4 Turbo是如何理解的,有哪些值得学习和不足的地方”,“大模型更多是在文本交互、知识交流领域为主,音频大模型能否成为主流模型或者高价值模型”,“未来音频大模型的发展趋势是什么?如何把握”,“对在音频这个领域或者将要进如这个领域的学生,在选题方向有哪些建议”等问题展开激烈的讨论,欧智坚、何磊、钱彦旻、易江燕、栾剑、张超依次做出来精彩的解答。

  数据与大模型

上午的数据与大模型的主题由AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是樊威、张超、邵志明

樊威分享的主题是《大模型数据资源面临挑战和发展路径》。报告主要分为3点:1、大模型数据发展现状及挑战;2、大模型数据治理总体思路;3、大模型数据治理落地思考。

张超分享的主题是《认知导向的视听觉大语言模型》报告介绍了ChatGPT作为一种大语言模型(Large Language Model,LLM),以文本输入和文本生成作为交互的主要手段,在自然语言和形式语言任务中展现了相当程度的任务通用性,但仍有许多不足。一个关键缺陷在于模型的语言认知与物理世界的多模态信息几乎无关ChatGPT的最新更新已支持图片和语音指令输入。可以把LLM类比为具有强语言认知能力的“大脑”,缺乏感官和身体,对物理世界的了解主要来自“想象”而非实际的“感受”。给LLM增加感知,尤其是音视频感知,既使LLM真正“能听会看”,也能提高已有音视频任务的准确性。

邵志明分享的主题是《AI算法赋能海天瑞声高质量数据生产》。本报告首先介绍海天瑞声语音数据生产环节使用的算法技术成果,以及针对平台预标注能力从多语种语音识别、自动切音、多通道对齐、重复发音人检测等技术的研究成果。其次,介绍海天瑞声在大模型数据生产方面的Know-how。 

  语音开源技术

下午的语音开源技术主题由清华大学副研究员王东和AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是Daniel Povey、匡方军、卜辉、张彬彬、张仕良、康魏

Daniel Povey分享的主题是《Zipformer: an improved Encoder for ASR》。will talk about our alternative to the Conformer, the "Zipformer", which gives improved accuracy atlower cost. lt includes downsampling and upsampling, as in UNet, and many architectural changes; wealso introduce a modified optimizer called ScaledAdam.

匡方军分享的主题是《 Sherpa: 新一代 Kaldi 部署框架》。报告主要介绍了如何使用新一代Kaldi部署框架 Sherpa 在 Linux/macOS/Windows/Android/i0S 等不同环境中部署语音识别和语音合成模型。比如来自 icefall,Whisper,FunASR,WeNet 和 NeMo 等框架的语音识别模型,来自VITS-fast-fine-tuning,piper 和 coqui-ai 等基于 VITS 的语音合成模型。

卜辉分享的主题是《 AISHELL-Turbo Datasets for multimodal AI models》。报告介绍了AISHELL的语音数据集赋能了智能语音技术在家居、车载、机器人、会议等多场景的应用落地。开源项目也覆盖语音识别、声纹识别、语音合成、场景语音交互技术方案。在针对语音识别(ASR)模型的性能评测方面,构建了高质量语音评测数据集,评测项目开放了ASR模型的SOTA内容,包括Benchmark和Leaderboard,对智能语音产业及用户应用体验的提升都起到了促进作用。随着ChatGPT等大模型的出现,人工智能(A)多模态大模型可以同时处理多种模态数据,如同时处理图像、文本、语音等。大模型通常基于深度学习技术,利用大量的数据来训练,以实现多模态数据的跨模态理解和生成。当前的多模态大模型性能在多个评测数据集上的成绩已经超越人类对知识的掌控,在未来如何对大模型进行知识迭代、大模型的场景化落地等问题,AISHELL在今年启动了AISHELL-Turbo数据集计划。报告内容会对AISHELL-Turbo的数据集规划和目前的成果做介绍。

张彬彬分享的主题是《WeNet 开源社区最新进展》。报告主要介绍了WeNet 开源社区最新进展:1、数据集和预训练模型更新;2、wespeaker 更新;3、wenet 最新算法和方案设计。

张仕良分享的主题是《ModelScope语音开源现状和语音语义多模态大模型研究进展介绍》。报告首先总体介绍魔搭社区语音模态的开源现状,包含语音识别、语音合成、说话人识别等技术方向。其次就语音识别方向,会进一步介绍FunASR开源工具包,以及解析语音识别服务一键部署能力背后的技术。最后会介绍通义实验室关于语音语义多模态大模型(LauraGPT、Qianwen-AL)的最新研究和开源进展。

嘉宾:张仕良、张彬彬、康魏

圆桌会由卜辉主持,议围绕着“如何参与开源语音技术社区?”,“开源语音技术该如何规划?”等问题展开激烈的讨论,张仕良、张彬彬、康魏老师依次做出来精彩的解答。

最后主办方对大会做总结和鸣谢。至此,第三届SpeechHome语音技术研讨会圆满结束,期待与大家再次相见。各平台会议直播观看人数累计16000+,线下参会150人

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1326507.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

oracle定位造成卡顿的SQL语句

先查询阻塞的会话号 select event,machine,sql_id,program,blocking_session from dba_hist_active_sess_history where SAMPLE_TIME between TO_TIMESTAMP (2021-08-25 15:25:00, YYYY-MM-DD HH24:MI:SS) and TO_TIMESTAMP (2021-08-25 15:30:00, YYYY-MM-DD HH24:MI:SS) and …

【Linux】进程周边006之进程地址空间

👀樊梓慕:个人主页 🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》 🌝每一个不曾起舞的日子,都是对生命的辜负 目录 前言 1.程序地址空间 1.1验证地址…

Git 储藏(stash)用法

储藏的基本用法 保存当前的更改 1、查看储藏 git stash list2、更改保存到一个储藏中: git stash save "info"其中,“info” 是可选的注释信息,可以简要描述这个储藏的内容。 3、恢复之前保存的更改 可以使用下面的命令将之前…

Qt之判断一个点是否在多边形内部(射线法)

算法思想: 以被测点Q为端点,向任意方向作射线(一般水平向右作射线),统计该射线与多边形的交点数。如果为奇数,Q在多边形内;如果为偶数,Q在多边形外。计数的时候会有一些特殊情况。这种方法适用于任意多边形,不需要考虑精度误差和多边形点给出的顺序,时间复杂度为O(n)…

Java 第14章 集合 课堂练习

文章目录 HashSet判断是否两次add都能加入成功HashSet编码遍历HashMap判断输出中是否有"abc" HashSet判断是否两次add都能加入成功 HashSet set new HashSet(); set.add(new String("hsp")); set.add(new String("hsp"));第一次可以&#xff0…

HTML期末复习,重要知识点摘录

HTML复习知识点摘录 1.html基本模板 <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>菜鸟教程(runoob.com)</title> </head> <body><h1>我的第一个标题</h1> <p>我的第一个段落。…

Docker 文件和卷 权限拒绝

一 创作背景 再复制Docker影像文件或访问Docker容器内已安装卷上的文件时我们常常会遇到&#xff1a;“权限被拒绝”的错误&#xff0c;在此&#xff0c;您将了解到为什么会出现“权限被拒绝”的错误以及如何解决这个问题。 二 目的 在深入探讨 Docker 容器中的 Permission De…

如何使用Docker搭建青龙面板并结合内网穿透工具发布至公网可访问

文章目录 一、前期准备本教程环境为&#xff1a;Centos7&#xff0c;可以跑Docker的系统都可以使用。本教程使用Docker部署青龙&#xff0c;如何安装Docker详见&#xff1a; 二、安装青龙面板三、映射本地部署的青龙面板至公网四、使用固定公网地址访问本地部署的青龙面板 正文…

TikTok获客工具开发必不可少的功能!

随着TikTok在全球范围内的走红&#xff0c;越来越多的企业开始关注这个平台并尝试从中获取客户&#xff0c;为了满足这一需求&#xff0c;市场上涌现出了许多TikTok获客工具。 这些工具的功能各有千秋&#xff0c;但有一些功能是必不可少的&#xff0c;本文将为您介绍TikTok获…

FMCW雷达仿真:基于L形阵列4D点云获取

摘要&#xff1a;本期内容为3D点云目标获取的延续工作&#xff0c;在距离、速度、方位角估计的基础上&#xff0c;通过设计L型阵列结构&#xff0c;进一步实现目标俯仰角的估计&#xff0c;最终实现目标4-D点云的获取。首先&#xff0c;通过中频信号建立仿真信号模型&#xff0…

MySQL中替换字符串中的指定部分之REPLACE函数

REPLACE函数是用来替换字符串中的指定部分内容的。在本文中&#xff0c;将介绍如何在MySQL中使用REPLACE函数进行字符串替换 REPLACE函数的语法&#xff1a; REPLACE(str, search_str, replace_str) 其中&#xff0c;str是要进行替换操作的字符串&#xff0c;search_str是要搜…

WebGL开发虚拟旅游应用

WebGL可以用于开发虚拟旅游应用&#xff0c;提供用户在浏览器中探索虚拟景点和环境的交互体验。以下是在WebGL中开发虚拟旅游应用的一般流程&#xff0c;希望对大家有所帮助。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xff0c;欢迎交流合作。 1.需求分析…

用于电磁炉、电压力锅等小家电的LED电源芯片型号汇总表

LED电源芯片是一种用于电磁炉、电压力锅等小家电的关键元器件。它具有高效、稳定、可靠的特点&#xff0c;能够满足小家电对电源的各种需求。 首先&#xff0c;LED电源芯片具有高效能的特点。它采用先进的功率转换技术&#xff0c;能够将输入的电压稳定地转换为输出所需的电压…

Redis原理之网络通信协议笔记

目录 1. RESP协议 ​2. 自定义Socket连接Redis 1. RESP协议 2. 自定义Socket连接Redis public class MyRedisClient {static Socket s;static PrintWriter writer;static BufferedReader reader;static Object obj;public static void main(String[] args) {try {// 1.建立连…

使用阿里云性能测试工具 JMeter 场景压测 RocketMQ 最佳实践

作者&#xff1a;森元 需求背景 新业务上线前&#xff0c;我们通常需要对系统的不同中间件进行压测&#xff0c;找到当前配置下中间件承受流量的上限&#xff0c;从而确定上游链路的限流规则&#xff0c;保护系统不因突发流量而崩溃。阿里云 PTS 的 JMeter 压测可以支持用户上…

ros2/ros 4轮2驱机器人xacro/urdf文件示例代码

这个实验中最重要的是&#xff1a;colcon build 之后要记得source install/setup.bash.否则修改的文件是不会更新的。知道了吧 <robot name"half" xmlns:xacro"http://wiki.ros.org/wiki/xacro"><xacro:property name"PI" value"3…

紫光展锐T820与百度飞桨完成I级兼容性测试 助推端侧AI融合创新

近日&#xff0c;紫光展锐高性能5G SoC T820与百度飞桨完成I级兼容性测试&#xff08;基于Paddle Lite工具&#xff09;。测试结果显示&#xff0c;双方兼容性表现良好&#xff0c;整体运行稳定。这是紫光展锐加入百度“硬件生态共创计划”后的阶段性成果。 本次I级兼容性测试完…

什么猫粮比较好?5款自用质量好的主食冻干排行榜

冻干猫粮因其高营养和适口性&#xff0c;受到了众多铲屎官们的喜爱和追捧。冻干猫粮的喂养方式非常简单&#xff0c;可以直接喂食&#xff0c;也可以将冻干复水后喂食&#xff0c;根据猫咪的不同喜好可以选择不同的喂养方式。然而&#xff0c;有些铲屎官在选择冻干猫粮时可能会…

Electron窗口标题栏位置异常?教你妙招解决!

Electron 是一个开源的桌面应用程序开发框架&#xff0c;它允许使用常用的 web 技术&#xff08;HTML、CSS、JavaScript&#xff09;构建跨平台的桌面应用。然而&#xff0c;在使用 Electron 开发应用时&#xff0c;你可能会面临不同操作系统之间的兼容性问题 本文将探讨在 El…

Latex-algorithm2e中将Algorithm修改为中文 “算法”

方法&#xff1a; 中文就是要放在中文环境里&#xff0c;使用如下 \renewcommand{\algorithmcfname}{算法} 效果由&#xff1a; 变成 参考&#xff1a; LaTeX技巧&#xff1a;算法标题 Algorithm如何重命名_name{algorithm}{算法}-CSDN博客 &#xff08;该文章提供了两个算法…