【公益案例展】华为云X《无尽攀登》——攀登不停,向上而行

news2024/11/16 18:53:05


7513c5e9487569383b2dc9334f76afc6.png

华为云公益案例

本项目案例由华为云投递并参与数据猿与上海大数据联盟联合推出的 #榜样的力量# 《2024中国数据智能产业最具社会责任感企业》榜单/奖项”评选。

cd6956ac78f44cfaaf7086e546cdd0b2.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


夏伯渝,中国无腿登珠峰第一人,一生43年勇攀5次珠峰,最终在69岁高龄成功登顶。他的事迹也被拍成了纪录片《无尽攀登》,广为流传。华为云盘古媒体大模型的视频翻译能力,将《无尽攀登》译制为英文版,并可以保留原始角色的音色、情感、语气等。除了声音外,通过媒体大模型的口型驱动模型,可以实现音唇同步,带来更好的观看体验。华为云盘古媒体大模型助力中国影视文化出海,将中国精神传递到世界各地!

时间周期:

开始时间:2024年4月

截止时间:2026年4月

服务周期:服务中

应用场景

视频AI翻译能力,应用于影视出海、短剧出海等场景。传统视频译制,需要配音演员熟悉翻译后的台词、体会角色情感,再对视频进行目标语种的重配音,质量便完全取决于配音演员的专业能力,且角色的声音和情感都会被重塑。受限于人工译制成本高,当前译制质量参差不齐,产能也有限。通过华为云媒体大模型提供的视频翻译能力,可以保留原始角色的音色、情感、语气,用AI将视频翻译为目标语言。除中英译制外,华为云联合逻辑智能伙伴的能力,可以实现韩语、法语、德语 西语、泰语、阿语等15种语言的译制,达到影视级译制效果。除了声音外,通过媒体大模型的口型驱动模型,可以实现音唇同步,带来更好的观看体验,尤其在侧面、多人对话、物体遮挡以及人物移动等场景,也能做到很好的口型匹配。

面临挑战

行业挑战:目前,影视/短剧出海需求旺盛。传统视频译制,需要配音演员熟悉翻译后的台词、体会角色情感,再对视频进行目标语种的重配音,质量便完全取决于配音演员的专业能力,且角色的声音和情感都会被重塑,口型也无法对应。受限于人工译制成本高,当前译制质量参差不齐,产能也有限。

项目挑战:《无尽攀登》这部纪录片是院线上映的影片,是影视级效果。且该纪录片全部为现场真实拍摄,全部为现场收音,有大量复杂的场景如爬珠穆朗玛峰过程的暴风、雪崩、各类杂音等问题,导致人声和环境杂音无法分离,且人物台词情感非常丰富、情绪很复杂,想要将这样的原声色原情感保留,并翻译成外文,难度非常大。华为云首次进行影视级影片的AI视频翻译,挑战非常大,时间也非常紧张,既要将原人物声色翻译成外语,且要让AI来还原人物情感。

技术开发过程

在媒体内容生产和应用领域,盘古大模型通过AI原声译制与视频生成能力,实现了将原片译制成不同语言的视频,并保留原始角色的音色、情感和语气。更为重要的是,盘古还能同步生成新的口型,确保不同语言对应的口型一致,使得跨语言沟通更加自然流畅;将译制配音、动漫生成等场景的制作周期从月级缩短到天级,大大提升制作效率,作品一次拍摄多元化制作,实现价值最大化;还能通过AI翻译和拟人化语音合成能力,实现更多的精品中文影视出海,助力中国文化出海

整个视频翻译方案是基于文字模态、语音模态、视频模态等三个模态的AI翻译大模型来实现的。整个处理过程涉及内容采集、说话人分镜、翻译(字幕翻译、语音翻译和口型翻译)、内容合成等四个步骤。整个流程是全自动化Pipeline完成。

如语音模态的翻译,一般影视视频中都包含人声和环境背景效果音,影视内容中会有大量环境音嘈杂的素材,这会使AI音译出来的人声非常小。需要利用AI的分离模型技术,让环境声和人声分开,就不会出现人声过小的情况。此外,基于华为自研的盘古语音大模型将源视频说话人每一句话的情感、音色、语音进行跨语音声音克隆,完成音色和情绪跨语种迁移。

其中最难实现的是视频模态的翻译,视频中不同人物有大量的不同角度说话,人物的脸有的是侧对镜头,要必须确保这样的镜头中他说话的口型和音译后的台词完全对应。口型问题看似最难解决,基于华为自研的盘古媒体大模型的口型模型技术后,可以从视觉层面让人物在影片音译后不论哪个角度口型都完全一致。通俗点讲,也就是将语音模态输出的音频信号和人物口型建立起联系,进一步讲,就是将音素(声音的最小单位)映射到视素(某一音素相对应的嘴、舌头、下颚等可视发音器官所处的物理状态)。根据经验,一种口型可能会表示不同的发音信息,即多个音素对应一个视素,那么就可以把该问题看成是多对一的映射方式。另外不同语种对应有不同的音素单元。人讲话时,口型是连续的动作,可以将人的口型简化为按照上下、左右张开的幅度进行简单划分为几种,即讲连续变量转化为类别变量,极端一点讲,张、微张、闭三种口型就可以构成口型库。大模型深度学习的任务,就可以理解为音素序列到开口大小的映射过程:从音频信号中提取特征,并将对应的口型作为标签,建立起数据集,基于数据集来训练模型。

应用效果/社会价值

纪录片《无尽攀登》原本只有中文版,无外文版。华为云盘古媒体大模型用AI能力将该影片翻译为外文版,并保留原人物的音色、情感等,可以非常好的将夏伯渝永不言弃、勇攀高峰的精神传递到海外,让全世界看到中国人的不屈及向上的精神。

关于企业

.华为云

华为云持续践行“一切皆服务”,为客户、伙伴和开发者提供稳定可靠、安全可信、可持续发展的云服务,做好行业数字化的“云底座”和“使能器”,加速千行万业智能化,成为百花园的“黑土地”。

2023年,华为云持续创新,全球业务保持快速增长。截至目前,华为云已覆盖全球33个地理区域、93个可用区,为170多个国家和地区的客户提供服务;入选8个Gartner魔力象限,新进入AI开发者服务、容器管理和分布式混合基础架构等魔力象限,在超过20个细分领域斩获市场第一。

点击文末左下角“阅读原文”链接还可查看“华为云”官网

以上由华为云投递申报的项目案例,最终将会角逐由数据猿与上海大数据联盟联合推出的 #榜样的力量# 《2024中国数据智能产业最具社会责任感企业》榜单/奖项

该榜单最终将于7月24日北京举办的“2024企业数智化转型升级发展论坛——暨AI大模型趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场:

b18e142af6167e610c1a8013a2ba26ce.jpeg

8736e17b6e22efe9c85ec8fb3641465e.png

20d310066f106d3906a7d11d9264e5c6.png

c4882e62234415bb70741427f11c5ef9.jpeg

f2d89898e654a053f1475337ae6a62f6.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1923424.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于GIS矿产勘查靶区优选技术

定义: 找矿远景区(ore-finding prospect): 一般将中小比例尺(小于等于1:10万)成矿预测所圈定的找矿有利地段(preferable ore-finding area)成为找矿远景区 找矿靶区(ore-finding t…

IPD流程学习笔记

一、前言 互联网行业讲究的是快速试错,所以IPD流程的应用并不多,但是传统企业数字化转型中,怎么确保项目投入可以切合市场需求,有较好的ROI及落地性,轻量级的IPD还是很有必要了解下的,特别是重资产类的业务…

LAMP万字详解(概念、构建步骤)

目录 LAMP Apache 起源 主要特点 软件版本 编译安装httpd服务器 编译安装的优点 操作步骤 准备工作 编译 安装 优化执行路径 添加服务 守护进程 配置httpd 查看 Web 站点的访问情况 虚拟主机 类型 部署基于域名的虚拟主机 为虚拟主机提供域名解析&#xff…

原料药合成偶联反应中钯残留去除

摘要:海普开发的HP214 是一种具有螯合硫脲基团的大孔树脂,专为选择性去除汞、铂族贵金属、金和银而设计。同时还特别适用于从有机工艺流程中回收钯催化剂。 #原料药合成偶联反应中钯残留去除 在有机合成中,以过渡金属络合物催化进行高选择性…

博士论文 | 神经网络的结构与表示 147页

由于神经网络在人工智能领域占据主导地位,一个试图了解其内部工作原理的研究分支领域应运而生。这个子领域的一个标准方法是将神经网络主要理解为代表人类可理解的特征。另一种探索较少的可能性是将它们理解为多步骤的计算机程序。这样做的一个先决条件似乎是某种形…

中霖教育:税务师和中级会计师哪个难?

税务师和中级会计师是财会专业的两个比较常见的证书,二者之间哪个更难? 税务师考试包含五个不同的科目:包括《税法一》、《税法二》、《涉税服务实务》、《涉税服务相关法律》以及《财务与会计》,考生在连续五个年度内通过即可。 中级会计…

【人工智能】-- 迁移学习

个人主页:欢迎来到 Papicatch的博客 课设专栏 :学生成绩管理系统 专业知识专栏: 专业知识 文章目录 🍉引言 🍉迁移学习 🍈基本概念 🍍定义 🍌归纳迁移学习(Induct…

[IDEA插件] JarEditor 编辑jar包(直接新增、修改、删除jar包内的class文件)

文章目录 1. 安装插件 JarEditor2. 在IDEA中添加外部JAR包3. JarEditor 使用介绍 之前我们需要修改jar内文件的时候需要解压jar包,反编译class,新建java源文件,修改代码,再编译成class,替换jar包内的class文件。 现在…

亚马逊IP关联是什么?要怎么解决呢?

亚马逊不仅提供了广泛的商品和服务,也是许多企业和个人选择的电子商务平台。然而,与亚马逊相关的IP关联问题,特别是在网络安全和运营管理方面,经常成为使用亚马逊服务的用户和商家关注的焦点。通过了解亚马逊IP关联的含义、可能的…

ensp防火墙综合实验作业+实验报告

实验目的要求及拓扑图: 我的拓扑: 更改防火墙和交换机: [USG6000V1-GigabitEthernet0/0/0]ip address 192.168.110.5 24 [USG6000V1-GigabitEthernet0/0/0]service-manage all permit [Huawei]vlan batch 10 20 [Huawei]int g0/0/2 [Huawei-…

【网络安全】APDCL:IDOR + 账户接管

未经许可,不得转载。 文章目录 正文漏洞1:IDOR漏洞2:账户接管 正文 APDCL ,即印度阿萨姆邦电力分销公司(Assam Power Distribution Company Limited),是印度阿萨姆邦政府控制的公共部门企业&am…

题四次

大家好,我是小王同学,这是我参加2024年4月破局行动营“AI提示词”实战手册 学习笔记。个人理解。 相信在接下来的日子里,大家都能学有所成 课程安排 【DAY1】起航:生成14天学习打卡计划 根据您提供的课程大纲,我为您制…

C++基础入门(上)

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 C基础入门(上) 收录于专栏【C语法基础】 本专栏旨在分享学习C的一点学习笔记,欢迎大家在评论区交流讨论💌 目录 1. C发展历史 2. C版本…

oslo_i18n学习小结

背景 代码均为开源代码 基于yoga版本,需要对openstack某服务做翻译,了解到oslo_i18n有翻译功能,配置oslo_i18n来给组件进行翻译 用法 用法 每个服务自己会带一个i18n.py的文件,如果要对日志进行翻译,从i18n导入_&…

京东商品信息爬虫程序:策略与实践

京东探索 京东案例 目标:爬取京东前三页商品数据,利用协程 思路: 爬取动态网站,首先分析接口链接,对比什么参数该变,什么参数可以不变。 原则:尽量与原链接相同,即使不加某个参数…

Java单边表的局部翻转

反转链表 II 这是上一个翻转全部链表的进阶版&#xff0c;大家可以先去看我的上一篇博客 Java算法之单链表的全部翻转-CSDN博客 题目描述 给你单链表的头指针 head 和两个整数 left 和 right &#xff0c;其中 left < right 。请你反转从位置 left 到位置 right 的链表节…

应急响应总结

应急响应 日志 windows IIS 6.0 及更早版本&#xff1a; C:\WINDOWS\system32\LogFiles\W3SVC[SiteID]\ IIS 7.0 及更高版本&#xff1a; C:\inetpub\logs\LogFiles\W3SVC[SiteID]\ Apache HTTP Server C:\Program Files (x86)\Apache Group\Apache2\logs\ 或者 C:\Prog…

推荐一款 uniapp Vaptcha 手势验证码插件

插件地址&#xff1a;VAPTCHA手势验证码 - DCloud 插件市场 具体使用方式可访问插件地址自行查阅

韦东山嵌入式linux系列-实现读LED状态的功能

这是第五篇第5章的课后作业&#xff0c;尝试实现 实现读 LED 状态的功能&#xff1a;涉及 APP 和驱动。 1 LED 驱动能支持多个板子的基础&#xff1a; 分层思想 参考分层思想 ①把驱动拆分为通用的框架(leddrv.c)、具体的硬件操作(board_X.c)&#xff1a; ②以面向对象的思想…

Vue3 引入Vanta.js使用

能搜到这篇文章 想必一定看过demo效果图了吧 示例 Vanta.js - Animated 3D Backgrounds For Your Website (vantajs.com) 1. 引入 在根目录 index.html中引入依赖 <script src"https://cdnjs.cloudflare.com/ajax/libs/three.js/r134/three.min.js"></sc…