数字内容“遍地开花”,AI技术如何创新“造梦”?

news2024/10/6 5:53:44

文 | 智能相对论

作者 | 陈泊丞

这是春晚舞台西安分会场《山河诗长安》的一幕:“李白”现世,带领观众齐颂《将进酒》,将中国人骨子里的豪情与浪漫演绎得淋漓尽致。

这又是浙江义乌商品市场里的另一幕:只会说几个英文单词的女老板秒变外语达人,无缝切换36国语言流畅介绍自家商品,疯狂带货。

这一幕幕不可思议的画面,成就了今天中国文化、商业的频频出圈。而一切的背后,都有着相同的支持:AI技术赋能数字内容生产和应用。

近年来,随着AI大模型技术的持续升级与赋能,数字内容生产与应用的趋势愈发强烈,现实场景与数字内容不断融合,悄然改变着整个内容创作行业的格局,甚至进一步推动了相关产业和商业的新变革。

技术创新重塑数字内容生产与应用新范式

数字人“李白”的精彩演绎、义乌女老板的AI带货——这些热门事件的背后,是技术创新突破所带来的结果。AI大模型的成熟应用,让越来越多不同形式的数字内容得以爆发,并广泛进入大众视野。

在6月21日举办的华为开发者大会(HDC 2024)上,华为云盘古大模型迎来5.0版本升级,其中盘古媒体大模型在语音生成、视频生成以及AI翻译上的技术创新就重塑了数字内容生产和应用的新范式。

对比过去的技术能力,新的技术所带来的效果是非常显著的。

一、语音生成进阶:只需三言两语,沉浸式、真实感的语音易如反掌

过去的语音生成依赖传统的声音克隆模型,由于模型比较小,精度低等原因,往往在实际操作上就要复杂得多。比如,在数据收集阶段,对目标人物的语音数据就要尽可能的多样化,包括不同的语速、语调、音量以及不同语境下的语音,需用到几百句话的录音。

然后到了预处理阶段,需要对收集到的语音数据进行清洗,通过人工标注等形式去除噪声、静音片段和其他不需要的部分。进而还要进行语音分割,将连续的语音信号切割成较小的语音片段(如音素或单词)。最后提取音频特征,再用于后续的声音建模。

以上,还只是数据收集和预处理,尚未进入真正的语音生成阶段。但其中的工作量和操作复杂度就已经很大了,对语音生成的效率和质量都是一个非常大的影响和挑战。

时至今日,随着技术的创新,基于更先进的模型,比如盘古媒体大模型的语音生成能力,这一问题得到了很好的解决。只需要几句话、几秒钟的声音,AI即可学习到个性化的音色、语调、表达韵律,从而获得高质量的个性化语音。同时,还支持喜怒哀乐等拟人情感语音,闲聊、新闻、直播等10多种语气风格,让生成的语音更真实、更有情感色彩,能沉浸式地应用到不同场景中。

比如,在视频译制中,AI将能做到配音演员的专业程度——通过盘古媒体大模型提供的视频翻译能力,AI可以把视频翻译为目标语言,并保留原始角色的音色、情感、语气。华为云也在积极联合伙伴逻辑智能,打造高感情语音克隆以及14国小语种配音,共同构建高感情超拟人多模态音频应用能力等。同时,再结合盘古媒体大模型的口型驱动模型,还可以实现音唇同步,尤其是在侧面、多人对话、物体遮挡以及人物移动等场景,也能做到很好的口型匹配。

二、视频生成跨越:只需几十张图,可控的、一致的视频唾手可得

传统的视频生成技术在资源需求、数据集、时序一致性、物理定律遵守、效率与质量平衡、可控性、逼真度和连贯性以及应用限制等方面都存在一定的局限性。如今,基于盘古媒体大模型,只需要训练几十张特定美学风格的图片,如吉卜利、二次元等风格,再输入实拍视频即可快速生成该风格的动漫视频。

除了按需时长生成稳定的动漫视频,再通过ID一致性模型,还能对生成画面中的关键角色进行一致性处理,确保视频中角色样貌特征在前一帧和后一帧中所呈现的效果始终一致,在侧脸、运动轨迹下的视觉效果合理一致,由此增强AI视频生成的可控性、一致性,让视频内容更合理、真实。

此外,业内对视频生成的真实度、复杂度也在聚焦增强。比如,OpenAI的Sora正在试图模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格一致,让AI创作的数字内容更加趋于现实创作。英伟达更是发布了一系列技术套件如ACE(NVIDIA Avatar Cloud Engine)、NeMo™以及RTX™等,去增强数字内容的真实感,让数字人物的互动、对话更加复杂、逼真。

三、AI翻译强化:准确性>93%,实时的、跨语言沟通指日可待

过去的机器翻译系统往往是基于统计模型或规则模型构建的,因此翻译结果大多无法与原文一致,显得生硬、不自然,并不具备应用到不同场景的条件。现如今,华为云通过AI实现多语种实时传译,准确性>93%,可应用于实时通话、云会议等需要实时翻译场景。

同时,基于盘古媒体大模型的语音复刻、AI文字翻译以及TTS技术,便可以实现语音的同声传译,成功实现跨语言母语沟通体验。甚至还可以结合数字人技术,让数字人来模拟用户说话,结合口型模型技术做到口型与声音精准匹配,让AI翻译、数字人与语音生成高度结合用于线上开会、跨国贸易交流等场景中。

技术的“瓶颈”在收缩?

技术的创新和突破带来了数字内容生产和应用的爆发,但另一方面随着生产和应用的进程加速,相应的技术瓶颈也在出现,并不断收缩、聚焦。目前,AI大模型在数字内容生产和应用上的问题主要呈现在三个层面。

其一,能源与计算效率瓶颈。当前,大模型训练的算力当量还在进一步增大,从GPT-3到GPT-4算力当量增长了68倍。随着训练的token数、模型参数增加,大模型训练所需的计算量也需要随之增加。

更重要的是,其背后的成本投入是难以为继的。根据计算,训练一个5000亿参数规模的Dense模型,基础算力设施投入约10亿美金,无故障运行21个月,电费约5.3亿元——这远远超出了企业的承受范围。

但是,如果想要规模化地生产高质量的数字内容,大模型的精进又是必要的路径。在这个阶段,业内开始寻求更高效、更优的算力解决方案。像华为云昇腾AI云服务就在致力于提供方便、好用的算力服务,在算力层面不断革新计算能力和计算效率,提供从云化算力、模型开发、模型托管到生态的全栈服务。

其二,算法架构的优化挑战。随着大模型参数的增加,想要实现更好的计算结果和输出更优的答案,那么其处理的时长就会不断延长的。但是,这在实际应用中是一个困扰数字内容生产和应用的显著问题,非常不利于数字内容的规模化、商业化发展。

由此,业内也开始在算法架构上进行优化,调整计算逻辑、处理方法来实现更优效果。其中,以稀疏激活机制为代表的MoE模型就是目前AI行业的一个焦点,类似于“术业有专攻”的理念,稀疏激活机制通过对数据任务进行拆解,分门别类,再分配给特定的“专家”(Experts)进行处理,最终综合加权输出——不仅实现了计算效率优化,也让输出结果更加全面、强大。

其三,安全与伦理问题。大模型内部运行机制复杂,生产出来的内容欠缺可解释性和可控性,又易受对抗样本攻击,存在监管难题和安全漏洞。对此,在数字内容生产和应用中,相关的安全和伦理问题随着行业的广泛发展而日趋突显。

因此,在数字内容行业高速发展的阶段,尽管企业能吃上数字内容的红利,但也需要鉴别模型的安全性、可靠性,避免因模型的安全和伦理问题而引发负面舆论影响。在这样的挑战下,华为云盘古大模型也随即作出升级,在数据治理、安全合规等方面达到了较高标准。

以技术“造梦”,数字内容未来可期

新范式的明确带来更明确的技术方向,对于整个数字内容行业而言,这意味着未来的发展已经有了基础的雏形,前景仍是乐观的。但是,不可忽视的是,技术的瓶颈客观存在,且更加突出,摆在行业面前的依旧是一条较为严峻的发展之路。

尽管抛开技术瓶颈不谈,在具体的实践中,数字内容的生产和应用也不简单,往往都需要面对很多在技术之外的具像化问题,只有基于问题去一步步解决才能最终完成落地。

华为云团队在进行纪录片译制时就发现,项目实际开展起来会遇到各种各样的问题,比如环境声音太杂太乱,AI无法准确识别人声保证音译的完整度,或是随着场景的切换,人物的状态、口型都呈现出不同的样子,需要AI精准地匹配等等。

如果这些问题不一一解决,AI译制的效果就打了个大大的折扣。对此,华为云团队通过精准分析问题,采用不同的技术去解决各类细微问题,比如通过分离模型技术让环境声和人声分开,通过口型模型技术让声音与口型精准匹配等。

技术或许一直都有,但是如何用恰恰才是项目落地的关键。换句话说,在今天数字内容行业高速发展、技术创新加速迭代的阶段,只有实践了才能真正推动行业的发展。这是一个比拼项目的阶段,谁家的项目经验越丰富,越能知道相关的技术应该如何应用才能发挥出应有的效果。

目前,中影集团与华为云合作,将媒体大模型应用到影视工业,共同打造影视译制大模型,通过AI将视频译制成不同语言,并保留原始角色的音色、情感、语气,还能支持口型匹配,为影片译制提供全新的AI制作方式。

今天,数字内容迎来迸发,越来越多精彩内容面世的另一面恰恰是厂商们不断运用技术、验证技术、完善技术的过程。未来的项目之路任重而道远,同时也是行业走向成熟的必经之路。静待技术在创新中、实践中持续升级、完善,未来便更快能看到一个数字内容精彩纷呈,如同梦境一般的世界。

*本文图片均来源于网络 

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1847361.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 线程的同步与互斥

💓博主CSDN主页:麻辣韭菜💓   ⏩专栏分类:Linux初窥门径⏪   🚚代码仓库:Linux代码练习🚚   🌹关注我🫵带你学习更多Linux知识   🔝 前言 1.资源共享问题 2.进程线程间的互斥…

JavaScript知识点大总结来了-------这一篇就足够啦!!!

JavaScript基础知识 一、对象的使用 1、创建对象 这里创建对象的方法我们采用最常用的一种&#xff1a; //第一种 <script>var Person {name: "zhangsan",age: "19",weight: "140",hight: "170",print:function(){console.…

让孩子在故事中成长,寓教于乐的趣学伴绘本投影故事机Lite

在早教产品琳琅满目的今天&#xff0c;挑选一款既吸引孩子又能提供真正教育价值的设备&#xff0c;对于家长们来说是一项挑战。我最近发现一种能够通过投影幻灯片讲故事的小工具很有趣&#xff0c;小朋友很喜欢&#xff0c;这款款名为趣学伴绘本投影故事机Lite的设备&#xff0…

NetSuite 不同类型Item的公司间交易科目的设置

我们知道&#xff0c;NetSuite中有Intercompany Preferences的设置&#xff0c;如下所示&#xff0c;分别涉及到公司间应收、公司间应付、公司间收入、公司间费用以及公司间成本共5个科目&#xff0c;非常明确清晰。 最近用户遇到的场景是&#xff0c;如果是Non-Inventory Item…

肾虚学习实验第T1周:实现mnist手写数字识别

>- **&#x1f368; 本文为[&#x1f517;365天深度学习训练营](https://mp.weixin.qq.com/s/0dvHCaOoFnW8SCp3JpzKxg) 中的学习记录博客** >- **&#x1f356; 原作者&#xff1a;[K同学啊](https://mtyjkh.blog.csdn.net/)** 目录 一、前言 作为一名研究牲&#xff0…

webp动图转gif

目录 前言 解决过程 遇到问题 获取duration 前言 上一次我们实现了webp转jpg格式&#xff1a; https://blog.csdn.net/weixin_54143563/article/details/139758200 那么对于含动图的webp文件我们如何将其转为gif文件呢&#xff1f; 之所以会出现这个问题&#xff0c;是因…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 5G基站光纤连接问题(200分) - 三语言AC题解(Python/Java/Cpp)

&#x1f36d; 大家好这里是清隆学长 &#xff0c;一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 &#x1f4bb; ACM银牌&#x1f948;| 多次AK大厂笔试 &#xff5c; 编程一对一辅导 &#x1f44f; 感谢大家的订阅➕ 和 喜欢&#x1f497; &#x1f…

容器之工具栏构件演示

代码; #include <gtk-2.0/gtk/gtk.h> #include <glib-2.0/glib.h> #include <gtk-2.0/gdk/gdkkeysyms.h> #include <stdio.h>int main(int argc, char *argv[]) {gtk_init(&argc, &argv);GtkWidget *window;window gtk_window_new(GTK_WINDO…

远程桌面总是连接不上,mstsc远程总是连接不上解决方法

远程桌面连接在日常生活和工作中扮演着至关重要的角色&#xff0c;它允许用户在不同地点和设备之间无缝协作。然而&#xff0c;有时用户可能会遇到MSTSC&#xff08;Microsoft远程桌面连接&#xff09;总是连接不上的问题&#xff0c;这可能是由于多种原因造成的。本文将针对这…

若依 ruoyi 排序 顺序 倒序 的实现

1. table标签新增排序相关属性 // :default-sort"defaultSort" 指定默认排序 // sort-change"handleSortChange" 指定排序点击事件 :default-sort"defaultSort" sort-change"handleSortChange" 2. 列上新增排序相关配置 自定义查询语…

解决File协议导致的CORS限制,用Node.js搭建本地服务器

文章目录 一、前言二、分析报错原因三、如何解决四、具体步骤 你是否曾遇到这样的困境&#xff1a;在本地使用file://协议直接打开HTML文件时&#xff0c;由于现代浏览器的安全限制&#xff0c;无法跨源请求&#xff08;CORS&#xff09;本地资源&#xff1f;尤其是当你试图通过…

非关系型数据库NoSQL数据层解决方案 之 redis springboot整合与读写操作 2024详解以及window版redis5.0.14下载百度网盘

redis下载安装以及基本使用 下载地址 链接&#xff1a;百度网盘 请输入提取码 提取码&#xff1a;0410 一个名对应一个数值 内存级 在内存里进行操作 准备启动 我们现在就有一个redis客户端的服务器了 我们再启动一个cmd 操作redis数据库 redis里面的基本数据类型有五种 …

小程序 如何支付后获取 Unionid

接口说明 接口英文名 getPaidUnionid 功能描述 该接口用于在用户支付完成后&#xff0c;获调用本接口前需要用户完成支付&#xff0c;用户支付完成后&#xff0c;取该用户的 UnionId&#xff0c;无需用户授权。本接口支付后的五分钟内有效。 注意事项 调用前需要用户完成…

重构大学数学基础_week05_雅各比矩阵与雅各比行列式

这周来讲一下雅各比矩阵和雅各比行列式。 多元函数的局部线性属性 首先我们来回顾一下向量函数&#xff0c;就是我们输入一个向量&#xff0c;输出也是一个向量&#xff0c;我们假设现在有一个向量函数 这个函数意思就是在说&#xff0c;我们在原来的平面上有一个向量(x,y),经…

收藏||电商数据采集流程||电商数据采集API接口

商务数据分析的流程 第一步&#xff1a;明确分析目的。首先要明确分析目的&#xff0c;并把分析目的分解成若干个不同的分析要点&#xff0c;然后梳理分析思路&#xff0c;最后搭建分析框架。 第二步&#xff1a;数据采集。主流电商API接口数据采集&#xff0c;一般可以通过数…

【芯片知识】QSOP24封装-NRK3502语音识别芯片方案

一、NRK3502语音识别芯片的简介 NRK3502系列芯片是一款蓝牙双模智能语音l0T芯片。芯片集成32位CPU处理器&#xff0c;包含 UART、GPIO、SPI、SD卡、12C、ADC、TouchSensor 等外围接口;内置 NPU、浮点运算单元。 依托于在语音识别技术上的积累和算法的不断优化和创新&#xff0c…

数据库复习——模式分解

模式分解这边主要包括无损分解和保持函数依赖的分解两种形式&#xff0c;简单整理一下。 无损分解 把一个 R R R 分成 ρ { R 1 , R 2 , ⋯ , R k } \rho \{R_1,R_2,\cdots,R_k\} ρ{R1​,R2​,⋯,Rk​}&#xff0c;然后通过自然连接 R 1 ⋈ R 2 ⋈ ⋯ ⋈ R k R_1\bowtie R…

C#和python端通信之使用共享内存

一、前言 本篇主要实验通过使用共享内存实现C#端代码和python端代码之间的通信&#xff0c;主要目的是相较于直接传输较大的数据&#xff08;例如图像数据&#xff09;&#xff0c;该方式更节省时间。 二、代码 C#端&#xff1a; 创建了一个大小为1的共享内存&#xff0c;名为…

Docker容器基础知识,即linux日常运维命令

Docker 是一个流行的用 Go 语言开发的开源项目&#xff0c;基于Linux内核的cgroup、namespace及 AUFS 等技术&#xff0c;对进程进行封装隔离&#xff0c;由 Dotcloud 公司开发。Docker已成为容器行业的事实标准。 小陈发现一个有趣的事情&#xff0c;容器的英文是Container&am…

数据通信与网络(三)

物理层概述&#xff1a; 物理层是网络体系结构中的最低层 它既不是指连接计算机的具体物理设备&#xff0c;也不是指负责信号传输的具体物理介质&#xff0c; 而是指在连接开放系统的物理媒体上为上一层(指数据链路层)提供传送比特流的一个物理连接。 物理层的主要功能——为…