【语音之家】AI产业沙龙 —— 解读火山语音团队在国际顶会ACL2023的创新突破

news2024/12/24 8:28:06

CCF语音对话与听觉专委会 、中国人工智能产业发展联盟(AIIA)评估组火山语音语音之家希尔贝壳共同主办的【语音之家】AI产业沙龙——解读火山语音团队在国际顶会ACL2023的创新突破,将于2023年6月14日19:00-20:20线上直播。

沙龙简介

目前ACL 2023的论文录用结果公布,火山语音团队多篇论文成功入选,内容涵盖音频合成、歌声合成以及语音翻译等多个技术领域的创新,通过本次线上沙龙活动可以更细致了解这些前沿技术突破。

报告嘉宾

嘉宾简介:任意,火山语音团队研究员,著名语音合成框架FastSpeech系列作者,曾在人工智能顶会发表论文50余篇,谷歌学术引用超过2800。主要研究方向为语音合成和虚拟人生成。

分享主题:结合视觉信息的端到端语音翻译

摘要:语音到语音翻译(S2ST)对于打破语言壁垒与沟通障碍非常有益。近年来业内利用自监督模型获得的离散单元,构建无文本且端到端的 S2ST 系统逐渐成为主流,但当前的S2ST模型在带噪的环境中仍然存在明显退化,并且无法翻译视觉语音(即唇动)。在这项工作提升中,火山语音团队联合浙江大学提出了AV-TranSpeech,业内首个借助视频信息的无文本语音到语音翻译(AV-S2ST)模型,通过视觉信息补充音频流,以提高系统的稳健性,并开辟了一系列应用前景,例如口述、为档案电影配音等。

嘉宾简介:叶振辉,浙江大学计算机学院三年级直博生,目前实习于火山语音团队,曾获得国家奖学金、腾讯奖学金等奖项,在ICLR、ACL、IJCAI等人工智能顶会发表论文10余篇,主要研究方向为语音合成和虚拟人生成。

分享主题:利用文本-语音对比学习提出针对语音合成的韵律文本表征

摘要:提高文本表征是实现富有韵律的语音合成系统的重要途径,然而现有的工作通常采用基于语言模型 (BERT) 的文本表征来提升合成语音的韵律的方法,这就带来了使用预测掩码标记(masked token prediction)任务进行预训练,更关注的却是文本的语义信息而非语音的韵律,从而导致训练效率低以及韵律建模困难等问题。基于上述观察,火山语音团队联合浙江大学提出了CLAPSpeech,这是一个跨文本-语音模态的对比预训练方法。与现有工作不同,它从相同文本标记在不同语境下的韵律变化中学习,因而能够显式高效地从文本中提取韵律相关的信息。

嘉宾简介:江子越,浙江大学计算机学院二年级直博生,实习于火山语音团队,在NIPS、ACL、IJCAI等人工智能顶会发表论文5余篇,主要研究方向为语音合成。

分享主题:针对口吃语音提出的自动化语音编辑系统

摘要:最近基于文本的语音编辑受到业界的广泛关注,其中口吃消除作为语音编辑的一个关键子任务,有着十分广泛的应用场景,然而之前的语音编辑工作仍然存在诸多不足之处,例如:音质较低、没有针对口吃语音进行设计、口吃区域需要手动定位等。对此该论文首创性地针对口吃语音提出了一个自动化语音编辑系统,也就是FluentSpeech。这是首个针对口吃消除任务进行优化的语音编辑系统,可以自动检测口吃区域将其去除,并同时生成具有丰富细节的流畅语音。此外它也在其他语音编辑任务(如增、删、改等)达到了SOTA效果,能够完成多场景下的零样本语音编辑,极大节省了配音人员、媒体制作者的人力投入。

嘉宾简介:李瑞琦,浙江大学硕士研究生,主要研究方向为语音与歌声合成、风格迁移等。

分享主题:基于跨模态对齐的从语音到歌声转换

摘要:语音到歌声转换(STS)任务是给定目标音高序列和一段源语音,合成出符合该音高要求和源语音内容的歌声信号。STS 任务的主要挑战在于,在没有给定文本信息的情况下,目标音高序列和源语音内容之间的对齐关系是很难学习的。本工作基于显式建模跨模态对齐提出了新的 STS 任务解决方案,AlignSTS。本工作使用一种新型且有效的 Rhythm 表示来连接语音内容和音高之间的模态差异,并采用了 Rhythm Adaptor 来预测目标的 Rhythm 表示。本工作还设计了一个跨模态对齐模块来根据生成的目标 Rhythm 表示对语音内容特征进行重排序,并使用了模态融合来进行歌声的合成。实验结果表明,AlignSTS 在主观和客观测试中都获得了更好的表现。

沙龙议程

参加方式

直播将通过CSDN进行直播,手机端、PC端可同步观看

👇👇👇

https://live.csdn.net/room/weixin_48827824/iHqZxdys

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/638682.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM中方法区、永久代、元空间详解以及关系?

首先我们需要先复习一下jvm的大致内存图,如下: 哦~ ,想起来了,原来方法区属于jvm的运行时数据区,且作用就是存储类信息、方法信息、常量池信息等静态数据。 (补充一下:运行时数据区中的红色是指…

​跨部门网络搭建,核心在这30行里

大家好,我的网工朋友。 在企业网络中,想要实现跨部门的VLAN互联互通,其实有很多方式。 你可以通过子接口实现,也可以通过VLAN-Interface实现。但在实际工作中,很多网工朋友,遇到这种情况,很容…

【Selenium2+python】自动化unittest生成测试报告

前言 批量执行完用例后,生成的测试报告是文本形式的,不够直观,为了更好的展示测试报告,最好是生成HTML格式的。 unittest里面是不能生成html格式报告的,需要导入一个第三方的模块:HTMLTestRunner 一、导…

java小技能: 使用response方式下载txt文件(使用response的方式进行文件的传输)

文章目录 引言I 后端代码1.1 思路1.2 封装1.3 用法1.4 防止文件名称中文乱码1.5 指示哪些报头可以公开 Access-Control-Expose-Headers1.6 创建目录II 前端下载文件引言 项目需求:进行txt文件的下载 其他思路:写好文件在下载的方式 本文思路:使用response的方式进行文件的传…

【实战】minigpt4的体验和微调

MiniGPT-4 https://github.com/vision-cair/minigpt-4 1 环境配置 1.1 安装环境 git lfs install //如果报错 :git: lfs is not a git command. See git --help. //尝试使用: sudo apt-get install git-lfs git lfs install1.2 准备Vicuna权重 &…

树的概念和性质

文章目录 树的基本概念树的定义和术语树的遍历树的种类 二叉树二叉搜索树AVL 树红黑树 完全二叉树和满二叉树哈夫曼树 多叉树B 树及其变种B 树B 树和 B* 树 目录 树的基本概念 树的定义和术语 树是由零个或多个结点组成的具有层级关系的数据结构。 当树的结点数量等于零时&a…

暴力递归到动态规划(四)

⭐️前言⭐️ 本篇文章是从暴力递归到动态规划篇目的最后一篇文章,包含了几道题目还有最终的大总结,相信这篇文章能让各位读者对动态规划有更深一步的了解。 🍉欢迎点赞 👍 收藏 ⭐留言评论 📝私信必回哟&#x1f601…

使用大型语言模(LLM)构建系统(五):输出结果检查

今天我学习了DeepLearning.AI的 Building Systems with LLM 的在线课程,我想和大家一起分享一下该门课程的一些主要内容。今天我们来学习输出结果检查。输出结果检查包含以下两部分内容: 检查输出是否存在潜在有害内容检查输出是否基于提供的产品信息 下…

easyrecovery2023永久免费版激活密钥,手把手教您用EasyRecovery快速恢复数据

Ontrack EasyRecovery Crack Professional是一个全面的备份和恢复实用程序,可以从多个数据丢失事件中恢复文件,例如常见的意外删除、更严重的(有时是病毒引起的)分区或驱动器格式化,甚至硬盘严重损坏后的数据丢失。免费…

Python实现ACO蚁群优化算法优化LightGBM回归模型(LGBMRegressor算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 蚁群优化算法(Ant Colony Optimization, ACO)是一种源于大自然生物世界的新的仿生进化算法&#xff0c…

全球计算科学和人工智能领域Altair

作为全球计算科学和人工智能领域的领导者 Altair,全新数据分析与人工智能平台 Altair RapidMiner。此次启动仪式以 “数据科学,解码智能未来” 为主题。目的是为了更好的助力本土用户推进高效数字化转型,实现数据分析与人工智能应用的降本增效. 作为全球…

PR视频导出时出现编译影片出错的提示怎么解决?

大家使用PR软件的时候因为版本不兼容等各种原因,导致剪辑好的视频导不出来(如下图所示),这种情况有两种方法可以解决。(我用的版本是2022Pro,电脑需要Win10的系统,如有需要下载的,可…

使用 Terraform 在 GCP 上一键部署 EMQX MQTT Broker

引言 MQTT 是一种轻量级的消息传递协议,适用于物联网应用实现设备间通信。 作为一款主流的开源 MQTT Broker,EMQX 能够提供高扩展性、可靠性和安全性的 MQTT 消息传递服务。 借助广泛应用的基础设施即代码(IaC)工具 Terraform&a…

外包干了4年,人直接废了···

有一说一,外包没有给很高的薪资,是真不能干呀! 先说一下自己的情况,大专生,19年通过校招进入湖南某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了&#xff0…

【javaScript】Proxy与Object.defineProperty的区别

目录 功能方面的区别:Object.defineProperty对整个对象进行赋值,不会触发set拦截Object.defineProperty对整个对象进行遍历,不会触发get拦截Proxy自定义拦截行为 Proxy的优缺点优点:缺点 Proxy和Object.defineProperty都是JavaScr…

亿发软件:中医药信息一体化解决方案,智慧中药房煎配系统

智慧中药房是中医药服务的一种新模式,随着中医药信息化建设逐渐兴起,湖南远跃顺应时代发展需求,深度分析中医药行业现状,充分发挥研发技术创新,融合运用互联网、物联网、大数据等技术创新成果,研发出中药信…

上市后首份年报,读书郎去年净利下滑94%

又是一年高考逐梦时,寒窗二十四年的读书郎如何克服“偏科”症? 近日,读书郎教育控股有限公司(下称“读书郎”,02385.HK)交出了上市后的首份年报。 3月29日,财报公布的首个交易日,其股价下跌0.27%&#xf…

起点,而非终点——我的创作纪念日

机缘 我注定遇见CSDN. 作为一位oier,在学习算法,查找题解的时候,第一个看到的,总是CSDN。 于是,我加入了CSDN这个家庭。 茫茫然然,带着无限的憧憬,我写下了第一篇文章:《你好,CSDN》 我的C…

什么是融合CDN?融合CDN的优势和常见的调度模式有哪些?

什么是融合CDN? 为了理解什么是融合CDN,我们先了解什么是CDN。CDN是一个地理分布的边缘服务器网络,其目标是提供更快、可靠的互联网内容交付。CDN通过在网络边缘缓存互联网内容来实现这一点,从而减少数据源和最终用户之间的物理距…

“入职半年,绩效背了C”,谈谈「绩效管理」的误区及对策

职场打工人上班吃维C,绩效却背C,苦C久矣! 又到年中“考核季”,被绩效考核折磨到“头秃”的职场打工人们,选择将情绪释放到社交平台。 一位朋友分享了自己绩效被打C的经历:“茶饭不思,感觉自己很…