火山语音丨AI创作惊艳四方 诸多挑战仍在路上

news2025/1/13 13:11:07

2022年8月,一幅名为《太空歌剧院》的数字画作获得冠军同时引发了巨大争议,AIGC(AI产生内容:AI-Generated Content)出圈的事件便频频出现在大众视野。同年11月30日OpenAI发布的聊天机器人模型ChatGPT免费开放,更掀起了人们对AIGC的广泛兴趣,各种花式问题,例如改代码,谈学问、问人生……ChatGPT的“机智”与“博学”令人刮目相看并耳目一新。

ChatGPT之所以引起了广泛关注,在于OpenAI 先后发布了三代GPT模型,每一代模型参数量都比前一代增长了10倍甚至100倍,进入GPT-3.5代的模型则是采用了RLHF(从人类反馈强化学习)方式,能够更好地理解人类语言的含义,即与人类在聊天、文章撰写、解答询问、代码查错等互动时更像一个经过“认真思考”慎重给出答案的“人”。

面对圈内如此热点,在火山语音音频合成算法研究员Stephen看来:“之所以AIGC近期表现大热,与AI生产的内容质量阶梯式提升密不可分。AI作为生产工具触发了更高的效率,AIGC则包含了文本生成、音频生成、图像生成和视频生成等诸多方向,也会反过来刺激其背后的人工智能技术快速发展,逐渐体现出极大的商业价值。

声情并茂与能说会演 或成为AI语音的难点之一

我们经常会感慨,AI作画让你领略的是AI的“想象力”, 以ChatGPT为代表的AI问答则让你因为其博学与答案的“可读性”而震惊,而AI语音则考验的是TA能否像真人一样对内容正确理解后,通过匹配人设的音色以及符合当时情景的语气表达出来,这一点在火山语音(字节跳动AI Lab 智能语音与音频团队)与番茄小说的合作中屡见不鲜,AI算法生成的语音可以让你直接去听任何文字版的小说,而且听起来“更聪明一点”:差异化的音色配合恰当的语气,在朗读时化身“戏精”演绎出“喜怒哀乐”。

据了解,要让AI声情并茂与能说会演,首先需要确保输出内容不读错,这就需要文本分析模型来进行解析。“在番茄小说中,文本分析前端我们采用了 NLP 领域应用广泛的 Transformer 架构模型 BERT。主要通过神经网络加规则混合的正则化模型(TN)和多任务前端模型,结合长期的人工规则修正,不断提升前端的句级别精度,并通过蒸馏、量化等技术降低了算力需求。”

此外为了让语音听感更佳,团队还基于常规 TTS 流程加入了更多功能模块,实现了角色归属与情感控制。例如在角色归属中同样采用了 bert 结构,进行对话判定和指代消歧两个任务的建模,另外也采用了类似的结构进行情感预测。“通常小说文字中会出现多人对话,每个说话人又有属于自己的多种情感,如果可以将音色和情感进行解耦,就可以更好地控制合成语音的表现力,实现不同音色与不同情感的灵活组合,这个很关键。”

重要的一点,为了让AI能够理解各种类型小说的文本,火山语音还率先提出了“AI 文本理解”模型,即一套多任务的长文本理解AI系统。能够自动化地从小说文本中区分出对话的角色、判别出对话中所想要表达出的情感、预测出合理的句间停顿,极大地提升了精品 AI 有声书的制作效率,有效突破了人工标注的生产瓶颈。

「AI 文本理解」模型

更进一步,火山语音团队在满足发音清晰、韵律连贯、语调起伏的基础上,自研半监督学习的端到端风格控制声学模型,使声音遵循普鲁契克情感色轮(Plutchik's Wheel of Emotions)的情感类型,表现出开心、悲伤、惊讶、恐惧等多种情感色彩,以情感迁移的方式,让原本没有情感的发音获得多情感合成的效果。更好表达“以声传情”,将人类语言中常会出现的「副语言」现象进行了精细化的建模还原,实现了在有声书中常见的重音停顿、疑问反问、笑声哭腔、以及各类叹息、叫喊声等,达成了文本内容的精彩演绎。

“接近真人播讲的效果,使最终的AI语音能够体现出不同角色在不同上下文环境里的效果,是我们一直以来追求的目标。未来,我们更希望可以做到,通过文本-语音联合训练大模型,对不同上下文环境的文本提取表征,提升角色判别成功率;凭借多话者语音合成大模型,对情感、风格、音色和口音等属性进行解耦并能够自由迁移;同时根据文本描述生成匹配的背景音来提升有声书聆听时的代入感。”

提高内容质量和产生效率才是AIGC的核心价值

在更多实践中我们发现,除了文字和图像,人们对语音交互的应用范围更广,例如人们在家中经常通过语音交互发出指令控制各种电器;出行时通过车载语音助手完成导航、预定餐厅等事项;以及在办公场景中高频率使用的会议助手等,都离不开智能语音方案来提高内容质量和生产效率。

对此火山语音团队也随之进行了更多相关的创新性尝试,例如在短视频成为全民时尚的今天,面对UGC群体视频创作的随性记录以及音频质量不可控等现实因素,通过火山语音智能字幕解决方案为视频创作自动添加字幕,不仅可以兼容识别中、英、粤等常用的语言和方言,还能对歌曲进行识别。

对此火山语音音频理解方向产品经理W补充道:“视频内容生产中,传统加字幕的方式需要创作者对视频进行数次听写并校对,还需要根据起始时间逐帧对齐,经常10分钟的视频需要几小时的后期制作时间才能完成。此外字幕组还要精通多语言并熟悉字幕文件的制作,整体下来视频制作成本很高,这对于当今短视频时代的个人创作者或是单纯以记录生活的用户来说早已高不可及。”

为了降低创作门槛,让所有创作者都能轻松制作高质量的视频内容,记录美好生活,火山语音自研推出了智能字幕解决方案。不仅能够高效识别方言与歌曲,还可以对语种混合以及说话唱歌混合的场景有很好的识别效果;此外还可通过对用户创作内容的音频特性以及领域分析,凭借算法优化,大大提升语音识别对于噪声场景、多人说话等复杂场景的表现。尤其面对移动端用户针对功能响应时间的较高要求,即希望字幕可以既快且准,对此火山语音做了大量的工程优化和策略,1分钟的视频只需2-3秒即可完成。

 智能字幕解决方案展示

众所周知,面对相同的内容,人类对于音频信息的获取效率远低于文本信息的获取效率,而将语音转化成文本被记录与使用的关键在于语音识别,例如火山语音推出的“千言转文字,一字胜千言”的实时字幕解决方案就是通过“语音识别+语音翻译”的AI链路,让跨国家、跨语言交流变得更加流畅;通过自动生成会议记录与纪要,做到大大提升与会者的工作效率,大幅减少会后整理和会中记录的工作量。可以预见伴随科技的迅速发展,AI语音会为人机交互增加信息输出的渠道,为信息获取提升效率。

同样面对AIGC带来质量以及效率的提升问题,在火山语音语音交互产品经理Y看来,AIGC确实有望在智能语音交互的辅助场景中落地,可以实现包括会话摘要、话术推荐、情绪安抚、工单摘要等方向的客服功能,辅助解决方案来提高生产效率。举个例子,在人机对话触发转人工时,可自动生成人机对话的对话摘要,辅助人工更快了解用户诉求,避免出现突然冷场去翻查聊天记录的情况;在与人对话过程中,通过对用户话术的理解,运用AIGC能力来生成答案供客服参考,提高了客服对话的效率。

“此外在异常情况处理方面也可发挥作用,比方说用户出现烦躁、愤怒等情绪时,AICG或可自动生成安抚话术供客服参考,提升服务满意度等。未来,伴随多模态技术和AIGC技术的不断成熟,或许通过虚拟数字人可取代部分人工,以人机共生的形态直接服务客户,更显著降低人力成本,提升服务效率。”但他也明确表示,如今的AIGC还无法做到真正独立生产内容,尚处于辅助人类提升内容生产效率的阶段。

成本、版权、实用性仍是AIGC发展的瓶颈

不论是ChatGPT给出了惊人回答,还是番茄小说中AI演绎出了感人声音,就连马斯克也惊叹:我们离强大到危险的人工智能不远了。这似乎预示着AIGC的时代即将来临。

然而在AI算法一线工作多年的火山语音音频合成算法研究员Stephen却有着更为清醒的判断,他指出:“AIGC背后的技术,未来可能会进行多模态融合,不仅仅是单一模态的生成式任务,这就像人类在创造内容的过程中也不仅仅是根据单一形态的知识而构思出新内容。举个例子,就像生成交互式数字人的任务中,目前主要是人脸、表情、姿态和动作的单独预测,未来或将用一个生成式模型预测这些特征,提升各特征之间的协同效果,降低分别录制带来的工作量;此外也会根据多模态理解任务得到的表征,基于正在对话的用户的表情、语气和肢体动作,在生成的形象和声音上给予对应的反馈。”

除了技术发展的预测,不容忽视的一点,目前AIGC在成本、版权和实用性上仍存在巨大挑战。他认为目前AIGC成本居高不下,很显著的表现是高质量文本、图片和视频生成技术等,都对应着大量训练和推理阶段硬件资源的消耗,这导致高校和研究机构均很难参与其中,不利于行业发展的推动。

“此外在版权保护上,目前生成的内容有些可能会被用来进行非法活动,因此在内容中加入版权保护,例如图像和音频水印变得越来越重要,但是在加入过程中,还得考虑不要因为剪切、混合等后处理方式导致水印失效。”

过去的2022年,尽管在图片和视频生成方向的技术应用效果显著提升,但依然需要大量人工筛选后,内容才能实际落地;而基于长篇章文本生成上下文相关的漫画和视频,既要保证场景的连续性,又要能体现人物的变化,还有大量的技术难题需要解决,避免人工智能变成“人工智障”是个挑战,所以实用性还有更多的提升空间。

我们或许可以这样认为,AIGC作为一种新型的内容生产方式,之所以受到关注,充分说明了各行各业对于内容的渴望,尤其是互联网平台,如何高效理解、创作、互动和分发内容,确实给现今的AI 技术带来了机遇和挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/153517.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从0到1完成一个Vue后台管理项目(二十、地图涟漪、线图)

往期 从0到1完成一个Vue后台管理项目(一、创建项目) 从0到1完成一个Vue后台管理项目(二、使用element-ui) 从0到1完成一个Vue后台管理项目(三、使用SCSS/LESS,安装图标库) 从0到1完成一个Vu…

缓存穿透、布隆过滤器、布谷鸟过滤器

1.概述 缓存穿透: 当查询的数据在缓存(redis)中没有时,一般业务上就会去查询数据存储(数据库),这种情况称为缓存穿透。穿透的数量太大会造成数据存储撑不住(数据库)而宕…

基于控制器软件需求事项进行单元测试和单元测试规范

基于需求事项的单元测试是什么? ​ 大多数汽车行业都遵循 ISO 26262 中定义的标准,这是 ISO 制定的汽车功能安全国际标准。 根据 ISO 26262 标准软件单元测试 (ISO 26262-6-9),单元验证是验证要验证的单元(功能或功能&#xff09…

智能优化算法应用:基于蜣螂优化算法的工程优化案例

智能优化算法应用:基于蜣螂算法的工程优化案例 文章目录智能优化算法应用:基于蜣螂算法的工程优化案例1.蜣螂算法2.压力容器设计问题3.三杆桁架设计问题4.拉压弹簧设计问题5.Matlab代码6.Python代码摘要:本文介绍利用蜣螂搜索算法&#xff0c…

MyBatis框架知识点总结

一、引言1.1 什么是框架?框架:框架使用你的,而不是你在使用框架的。框架让我们提供什么信息,配置信息,数据库连接用户名密码等,你必须提供,还得按照框架要要求的方式提供,否则你就别…

《图机器学习》-Node Embeddings

Node Embeddings一、Graph Representation Learning二、Node Embeddings:Encoder and Decoder三、Random Walk Approaches for Node Embeddings一、Graph Representation Learning 在传统的图机器学习中,依赖于手工特征工程(即由特征工程师去设计节点、…

每日一题:Leetcode54. 螺旋矩阵

文章目录 系列:数组专练 语言:java & go 题目来源:Leetcode54. 螺旋矩阵 难度:中等 考点:边界问题处理 思路和参考答案文章目录题目描述思路java参考代码go参考代码:题目描述 给你一个 m 行 n 列的矩…

力扣sql基础篇(三)

力扣sql基础篇(三) 1 查询结果的质量和占比 1.1 题目内容 1.1.1 基本题目信息 1.1.2 示例输入输出 1.2 示例sql语句 # 把该列置为null的话,它就不会统计了 SELECT query_name,ROUND(sum(rating/position)/count(*),2) quality, ROUND(count(IF(rating<3,rating,null))/c…

【数据结构】—— Java实现双向链表

Java实现双向链表一、链表的概念及结构二、头指针与头结点的异同三、代码实现一、链表的概念及结构 我们在单链表中&#xff0c;有了next指针。这就使得我们查找下一个结点的时间复杂度为O(1)。可是我们要查找的是上一个结点的话&#xff0c;那最坏的时间复杂度就是O(n)了&…

用图记忆C语言中的运算符优先级

运算符优先级以及结合方向的统计表&#xff0c;网上到处可见。本文画了一张图&#xff0c;以便记忆&#xff01; 1. 总体来说优先级 初级运算 > 单目运算 > 双目运算 > 三目运算 > 赋值运算 > 逗号运算 2. 双目细分 算术运算 > 位移运算 > 关系运算 &g…

今年十八,基础过关

目录 前言 第一关&#xff1a;KEY在哪里 再加密一次你就得到key啦~ 猜猜这是经过了多少次加密&#xff1f; 据说MD5加密很安全&#xff0c;真的是么&#xff1f; 种族歧视 HAHA浏览器 key究竟在哪里呢&#xff1f; key又找不到了 冒充登陆用户​编辑 比较数字大小 就不让你…

Linux应用编程---14.UDP服务器、客户端编程

Linux应用编程—14.UDP服务器、客户端编程 ​ 之前有介绍过UDP是一种无连接、尽最大努力交付、面向报文的协议。应用层交给UDP多长的报文&#xff0c;UDP就照样发送。Linux下UDP属于数据报socket。数据报socket流程图如图1所示&#xff1a; 图1 数据报socket流程图 ​ 新引入的…

FourIE:一种最新联合事件抽取SOTA论文解读

Cross-Task Instance Representation Interactions and Label Dependencies for Joint Information Extraction with Graph Convolutional Networks 论文&#xff1a;Cross-Task Instance Representation Interactions and Label Dependencies for Joint Information Extractio…

Vue2的前端路由(vue-router)

一、路由 路由 (英文&#xff1a;router)就是页面地址与组件之间的对应关系 二、路由方式 服务器端路由、前端路由 三、前端路由 前端路由&#xff1a;地址和组件之间的对应关系&#xff0c;即由前端来维护一组路由规则&#xff08;地址和组件之间的对应关系&#xff09;&…

xlsx.utils.sheet_to_json的{ header: 1 }起的作用,header属性的研究

XLSX.utils.sheet_to_json 是为了把excel里面的数据解析出来&#xff0c;这是它的定义&#xff1a; 其中&#xff0c;worksheet表示特定表名的工作表&#xff0c;opts属于可要可不要的参数。 opts也有几种类型&#xff1a; export interface Sheet2JSONOpts extends DateNFOp…

selinux 控制

在某些Linux发行版上&#xff0c;默认情况下启用SELinux&#xff0c;如果不了解SELinux的工作原理以及如何配置它的基本详细信息&#xff0c;则可能会导致一些不必要的问题。一般强烈建议了解了SELinux 之后再去实现它。但是&#xff0c;在了解 SELinux 的实现细节之前&#xf…

由浅入深,详解ViewModel的那些事

Hi&#xff0c;你好 &#x1f603; 引言 关于 ViewModel &#xff0c;Android 开发的小伙伴应该都非常熟悉&#xff0c;无论是新项目还是老项目&#xff0c;基本都会使用到。而 ViewModel 作为 JetPack 核心组件&#xff0c;其本身也更是承担着不可或缺的作用。 因此&#x…

STL list 模拟实现

list 概述 相比于 vector 的连续线性空间&#xff0c;list 采用的是零散的空间&#xff0c;它的好处是每次插入或删除一个元素&#xff0c;就配置或释放一个元素空间。 list 是支持常数时间从容器任何位置插入和移除元素容器&#xff0c;但不支持快速随机访问。list 通常实现…

Linux操作系统之进程间通讯—共享内存与消息队列

文章目录一、共享内存1、共享内存的原理2、共享内存的实现三、消息队列1、消息队列原理2、消息队列实现一、共享内存 1、共享内存的原理 共享内存为多个进程之间共享和传递数据提供了一种有效的方式。共享内存是先在物理内存上申请一块空间&#xff0c;多个进程可以将其映射到…

dp (四) 打家劫舍

打家劫舍(一)_牛客题霸_牛客网 描述 你是一个经验丰富的小偷&#xff0c;准备偷沿街的一排房间&#xff0c;每个房间都存有一定的现金&#xff0c;为了防止被发现&#xff0c;你不能偷相邻的两家&#xff0c;即&#xff0c;如果偷了第一家&#xff0c;就不能再偷第二家&#…