质效两全:媒体服务的创新“顶设”

news2025/1/16 16:06:03

做媒体服务,一定要有刻入骨髓的抽象思维。

视频化浪潮汹涌、生成式人工智能AIGC极速迭代、体验需求和应用场景愈发多样......面对“视频生产力”的变革,我们能否透过纷繁复杂的表象,洞察音视频行业的“真正需求”?

是否存在一套优雅的媒体服务设计,满足多方需求?如何“落地”实现价值?保持“持续生命力”的关键又是什么?

随着AIGC和大模型的能力加持,媒体服务的“全智能”又将如何演进?

本文由IMMENSE、「阿里云视频云」媒体服务负责人邹娟和LiveVideoStack策划、采访而成。

再探“真正需求”

大视频行业的真正“需求”是什么?

在视频化领域,关键无外乎是视频的生产与视频的消费。那么,关于大视频行业的真正“需求”,我们也可以从视频生产端视频消费端两个维度来讨论。

对于视频生产端而言,快速、高效地生产视频可以抢占发布先机、吸引观众;而提供更优质、创新、综合体验好的视频内容可以留住观众

对于视频消费端而言,最重要的是“体验”:题材新颖、有趣,内容丰富且有“获得感”;视频的画面和声音感官效果好;获取的信息是“第一手”、最新鲜的......

看似需求多样,实则无论是生产还是消费的需求,可以归结为两个关键词:“高时效” 和“高质量”。

规模化下,“高时效”和“高质量”可以两全吗?

“高时效”需要生产力和生产效率的提升,意味着相同时间内生产更多视频内容,这也会带来规模(数量、时长、行业、场景)的扩大。

在规模化之下,“高时效”与“高质量”看似难两全,但随着“云计算”与“人工智能”时代的到来,局面便大不相同了。

云计算既能提供海量、高并发、弹性的视频处理能力,还能将多种视频业务、多个视频场景,用最优的组织和调度方式,错峰亦或是混跑,这便实现了两个维度的“规模化”。在此之上,云可以将单个视频的高质量特性完美复刻,从而快速实现“高质量”视频的规模化

在此基础上,随着AI的不断发展和深入,智能能力在某些场景上比传统人力更精准、更高效,这也同样促成了规模化下的“高时效”与“高质量”

新数智时代,云和AI走向深度融合,而随着AIGC的大爆发,AI不再仅仅作为单点能力应用在某个环节,一切皆向着“全智能”演进。

“顶层设计”与“发动机”

云厂商面对“内容生产革命”,下一步“剑指何方”?

云厂商,天然的To B角色。由于不同行业、不同业务场景、不同需求的客户,所需的功能、性能、时效性、实现效果大相径庭。

因此,对云厂商来讲,开放、灵活、多场景的问题是必然需要解决的。

展开来说,视频的全链路从采集开始,历经制作、处理、管理、分发、消费,每一个环节包含了非常多所需的媒体原子能力。在面对不同场景以及不同行业的客户需求时,对这些原子能力的使用深度和组合方式,是十分不同的。

因此,经总结提炼和抽象后形成的统一“顶层设计”,便是云厂商的“制胜法宝”。

求本溯源,我们如何在“顶层”寻求解决之道?

首先,是将媒体原子服务“打散”,再“重组”。

这里,一是需要将视频全链路的媒体原子服务作细粒度拆分,并把每个服务做深做透;二是以一套灵活的编排机制,将这些原子服务依照客户的设想、场景、业务流,实现自由搭建和组装。

再者,是底层媒体技术的统一设计。

视频处理流程由解封装、解码、前处理、编码、封装这几个主要环节构成,我们需要一个下接算法、上联调度的“媒体引擎”,构建统一的媒体处理框架,将这些环节组织起来、支持多种算法、灵活集成插件、处理各类格式。

媒体原子服务的“打散”和“重组”,构建了媒体服务“最上层”可灵活编排的业务流,而统一“媒体引擎”是媒体任务在底层“执行层”实现高时效、高性能及丰富功能的基石。

最后,在二者之间,还需要统一的“媒体分布式服务框架和媒体元数据体系”做一层连接,其中包括了:跨产品跨场景的统一媒资OneMediaID、统一工作流、统一的媒体业务流消息处理机制、统一的媒体任务管道调度机制等。

由此,形成了一套统一顶设的“媒体服务”。

其中,媒体引擎是当之无愧的“发动机”?

我们讲到了“媒体引擎”,它是整个媒体服务的底层核心,是所有媒体处理和媒体生产制作任务的执行器,既需要处理传统的媒体处理类的任务,也需要处理各式各样AI任务,从而真正实现下接算法,上联调度。

“媒体引擎”同时涉及“编排层”技术,以及“内核层”技术。这里的“编排”并不是指业务流的“编排”,而是单任务处理各环节的“编排”和算子的“编排”

通过统一的编排Pipeline及策略,“媒体引擎”能灵活支持不同任务的多种参数组合,并使得这些参数组合的执行效果达到画质、性能、码率、时效性等多维权重的综合最佳。

此外,“媒体引擎”还负责对任务进行最优的执行策略。

比如:是整段执行还是并行执行?是切片级别并行还是帧级别并行?是否需要调用特殊的组件甚至使用特殊的机型?以及算子是否存在依赖关系?.....我们把媒体引擎的这类决策能力称为“media worker brain”。

在这样的大脑调配之下,对任务最优执行策略的追求,亦是对“高质量”和“高时效”追求的一脉相承。

持续的生命力:灵活、开放、多业务

一个平台的持续生命力,源于什么?

反复强调“顶层设计”,因为作为ToB的云厂商,阿里云视频云一定要解决多业务、灵活、开放的问题。

我们既需要考虑不同客户业务的个性与特色,又不能全部case-by-case地贴身定制,因此我们一定要有“刻入骨髓”的抽象思维,需要时时刻刻总结、提炼、抽象,对产品、模块、服务、API的设计皆是如此。

于是,“顶层设计”可以避免每个业务板块或模块在各自“舒适”的体系里“野蛮发展”,一切皆从全局来规划权衡

仔细看来,媒体服务的“顶设”先基于已有需求及客户场景,按照媒体服务的5大模块(媒体汇聚、媒体处理、媒体生产与制作、媒体管理、媒体消费),将媒体能力进行梳理、总结,并以“可复用”为依据,将其进一步打碎成细粒度的原子媒体能力,经过一层或多层的共性抽象,实现不同范围的Service。

比如:在媒体生产制作模块,媒体服务既提供了偏原子的VideoDetext去字幕服务,也提供了更综合的剪辑合成服务。

同时,需要将相对固定的和经过变化的部分进行分离,提供一些系统内置的媒体流程,降低客户的开发难度,而针对客户希望有更高灵活度的场景,还设计了类似可编程的脚本或策略进行自定义。

开放性也是媒体服务顶层设计的另一个关注点。

智能媒体服务的开放性体现在:除了支持阿里云产品的相关协议和能力之外,还支持国际或国内的标准协议及部分第三方厂商的协议和能力。

比如,在低延时传输这个领域,智能媒体服务除了支持自家的RTS之外,还支持LL-HLS、LHLS、Dash/CMAF等;

再比如,我们除了支持阿里云OSS作为媒体处理服务的输入输出之外,还支持AWS的S3、以及HTTP URL等;

还有,我们除了可以支持自研音视频及AI算法之外,也支持接入经过安全校验的三方AI算子等。

我们相信,只有开放与合作,才能让技术持续焕发生命力。

“顶设”落地,能让“高时效”再高一节吗?

当“顶设”帮我们突围了多业务、灵活、开放的壁垒,自然而然,就带来了更高的“高时效”。

深入其中,这包含4个维度的技术:

一是在工程架构层面,设计并实现“并行”处理框架,将整段视频或时间线Timeline先分片Split,做“并行”处理后再进行“合并”,这项技术适合“中长视频”或输入为“多个素材”的场景;

二是针对“单片”任务进行“性能优化”,包括算法优化、指令集优化、算法在引擎层的工程优化、pipeline优化以及算法和调度的联合优化等,使得任务在考虑源文件适配、任务参数特性、机型及配置、资源水位等多维度情况下实现最优执行;

三是在“分布式服务层”优化媒体业务流的编排,让流程的Activities在更广的范围内自由连接,如:边录边转、边播边转等,这可以让不同的产品和服务通过同一流程串联起来,从而实现跨场景甚至跨产品的流程提速;

四是“AI能力”的加持,无论是在算法层、引擎层还是在分布式的服务层,在处理规模化视频时,可以将AI带来的优势极致发挥,实现“高时效”的进一步提升。

如果一切都在无限解决媒体服务的“高时效”,那“高质量”的完美实现,在当下可以更多的利用AI能力。

AI:日新月异的“加速力”

还追得上AI的迭代和AIGC的演进吗?

大模型和AIGC技术的发展,可以用“日新月异”来形容,其迭代速度史无前例,涌现出的各类垂直应用模型,也使得音视频行业的应用场景更加广泛和多样化。

更重要的是,大模型以及AIGC可以运用更大量的数据、更复杂的算法、以及更强力的算力支撑,大大提高音视频处理的精度和效果,带来无限想象。

在这场AIGC风暴之前,我们的媒体服务已先行布局,让AI能力可以灵活参与视频的各种智能化场景,将AI的迭代和AIGC的演进,纳入智能化的“顶层设计”。

针对AIGC的演进(以内容创作领域为例),从序曲开始,我们设定了五个阶段:

➤ 第一阶段(序曲):AI负责素材的预处理,并按预设模版进行编排,实现视频全智能生产的第一个阶段。

➤ 第二阶段:在素材预处理之上,还能完成本属于视频创意环节的编排工作(脚本设计/Timeline设计),从而实现智能批量混剪。

➤ 第三阶段:面向特定场景和特定要求的成品,由AI根据已有成片反向解构分镜头,负责素材的搜索、筛选(以及部分素材生成)、处理、编排,并最终制作合成。

➤ 第四阶段:面向特定场景,AI负责理解场景的要求,包括素材的搜索、筛选(以及部分素材生成)、处理、编排,并最终制作合成。

➤ 第五阶段:针对多种场景,依据海量丰富的数据,AI能够自行发掘创意点,真正拥有“创作力”。

简扼来说,AI逐步渗透业务,从能力到场景,先单例后普适、先局面再整体、先执行再创意,完成AI从辅助业务到对业务全智能变革的演进。

可以看出,从前的AI只是辅助创作,而今天的AI已然可以成为创作的主角。

再往前看,无论元宇宙还是Web3.0,下一代互联网的繁荣需要海量的数字内容,对内容的数量、形式和交互性都提出了更高的要求。

举例来说,很多基于大模型的图像增强、实景抠图等技术,在效果上已优于传统AI算法;再比如,运用Text to Video(文本转化为视频)生成几秒空镜头、Image to Video(图像转化为视频)生成一段连续动作的视频,不仅能解决高质量的问题,还能实现“无中生有”的突破之作。

未来,运用AIGC的能力,智能媒体服务在生产制作领域,可以极大提升“一键成片”的效果,在智能生成、时间线的智能编排,以及智能剪辑和包装等各环节,都将逐一击破生产制作的效率、质量痛点;在媒资领域,也能运用AIGC生成视频摘要等,为媒资管理提供更多新能量。当然,全方位的探索都在进行中。

大模型时代的AIGC,期待不止。

7月28日下午

LiveVideoStackCon2023上海站

阿里云视频云专场

阿里云智能资深技术专家

《从规模化到全智能:媒体服务的重组与进化》

一起探索媒体服务的创新“顶设”!

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/780283.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【mysql数据库】MySQL7在Centos7的环境安装

说明: 安装与卸载中,用户全部切换成为root,⼀旦安装,普通用户就能使用。初期练习,mysql不进行用户管理,全部使⽤root进⾏,尽快适应mysql语句,后⾯学了用户管理,在考虑新…

matlab dot()函数求矩阵内积,三维 ,多维 详解

matlab dot()函数求矩阵内积,三维 ,多维 详解 Cdot(A,b,X),这个参数X 只能取1,或者2。1 表示按列,2表示按行,如果没有参数。默认按列。 1)按列优先计算 Cdot(A,B)dot(A,B,1)[a1*b1a4*b4 ,a2*b2a5*b5 ,a…

html,css初学

安装VSCODE ,插件&#xff1a;live server &#xff0c;html support html 然后为了更好地理解&#xff0c;请逐步输入&#xff0c;并及时查看效果 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>D…

A--自动收小麦机--2023河南萌新联赛第(二)场:河南工业大学

链接&#xff1a;登录—专业IT笔试面试备考平台_牛客网 来源&#xff1a;牛客网 示例1 输入 4 1 2 1 1 4 5 2 2 2 3 4 输出 10 说明 在第4格放出水流后&#xff0c;水流会流向第3格&#xff0c;由于第3格高度比第4格低&#xff0c;所以水流继续向左流向第2格&#xff0…

爬虫的编解码方式

get请求的quote方法 我们在对爬取一个网页的时候&#xff0c;我们复制了这个网页的地址&#xff0c;但我们发现在将他粘贴下来以后不会是汉字&#xff0c;而是一串字符&#xff0c;这时候&#xff0c;我们需要去对字符进行编码&#xff0c;以便于我们能够继续去爬取网页。 例…

markdown编写数学公式

在计算机这一块&#xff0c;我们肯定会接触到数学&#xff0c;数学中又包含很多公式&#xff0c;但是到现在&#xff0c;手写这些公式应该不陌生&#xff0c;但是如果让你电脑敲出来&#xff0c;你绝对很懵逼&#xff0c;这也造成了我们有时候写笔记时一些公式没办法在电脑上像…

ffmpeg离线安装ffmpeg-4.1.4-amd64-static.tar.xz

1.下载离线包 John Van Sickle - FFmpeg Static Builds 找历史版本&#xff1a;Index of /ffmpeg/old-releases 我选择是的4.1.4版本 2.解压 tar -xvJf ffmpeg-4.1.4-amd64-static.tar.xz 3.移动文件到opt目录下 4.添加全局链接 ln -s /opt/ffmpeg-4.1.4-amd64-static/ffm…

【C++基础(五)】类和对象(上)

&#x1f493;博主CSDN主页:杭电码农-NEO&#x1f493;   ⏩专栏分类:C初阶之路⏪   &#x1f69a;代码仓库:NEO的学习日记&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学习C   &#x1f51d;&#x1f51d; 类和对象-上 1. 前言2. 类的引入3. 类的定义4. 类的…

代码随想录-回溯(组合问题)|ACM模式

目录 前言&#xff1a; 77.组合 题目描述&#xff1a; 输入输出示例&#xff1a; 思路和想法&#xff1a; 216. 组合总和 III 题目描述&#xff1a; 输入输出示例&#xff1a; 思路和想法&#xff1a; 17. 电话号码的字母组合 题目描述&#xff1a; 输入输出描述&a…

MODBUS TCP转CCLINK IE协议网关profinet接口和以太网接口的区别

你是否曾经遇到过需要将不同的设备连接到一个统一的网络中&#xff1f;或者你是否曾经遇到过设备之间的通讯协议不兼容的问题&#xff1f;远创智控的YC-CCLKIE-TCP通讯网关就是为解决这些问题而设计的。 YC-CCLKIE-TCP通讯网关是一款自主研发的CCLINK IE FIELD BASIC从站功能…

OpenAI报错 time out:HTTPSConnectionPool(host=‘api.openai.com‘, port=443)

项目场景&#xff1a; 使用openai的api调用chatGPT报错&#xff0c;同样的代码在另一台机器没有问题 问题描述 使用官方示例 import openaiopenai.api_key sk-xxxx def chat_gpt(prompt):prompt promptmodel_engine "text-davinci-003"completion openai.Comp…

【Default config not found for ApplicationConfig】的一种解决方案

&#x1f4a7; 记录一下今天遇到的 b u g \color{#FF1493}{记录一下今天遇到的bug} 记录一下今天遇到的bug&#x1f4a7; &#x1f337; 仰望天空&#xff0c;妳我亦是行人.✨ &#x1f984; 个人主页——微风撞见云的博客&#x1f390; &#x1f433; 《数据结构与算…

vue项目之《 搭建路由系统 》

author&#xff1a;德玛玩前端 date&#xff1a;2023-07-22 今天&#xff0c;在工作中拿到了架构师的前端框架&#xff0c;是一个vue2elementui搭建的单页面架构&#xff0c;没有路由系统&#xff0c;需要自己搭建&#xff0c;因为以往拿到的框架都是路由系统已经搭建好&#x…

数据结构初阶--单链表

目录 一.单链表的定义 二.单链表的分类 2.1.不带头结点的单链表 2.2.带头结点的单链表 三.单链表的功能实现 3.1.单链表的定义 3.2.单链表的打印 3.3.单链表的结点的创建 3.4.单链表的尾插 3.5.单链表的头插 3.6.单链表的尾删 3.7.单链表的头删 3.8.单链表的查找 …

【Vue3】Vue3核心内容(上)

&#x1f380;个人主页&#xff1a;努力学习前端知识的小羊 感谢你们的支持&#xff1a;收藏&#x1f384; 点赞&#x1f36c; 加关注&#x1fa90; 文章目录 常用的Composition APIsetup函数ref函数reactive函数vue3中的响应式原理vue2的响应式Vue3的响应式 reactive对比Refse…

数据结构---手撕图解七大排序(含动图演示)

文章目录 插入排序直接插入排序希尔排序 选择排序选择排序堆排序 交换排序冒泡排序快速排序hoare版挖坑法前后指针法快速排序的递归展开图快速排序的优化三数取中法 快速排序的非递归实现 归并排序 插入排序 插入排序分为直接插入排序和希尔排序&#xff0c;其中希尔排序是很值…

xxl-job分布式任务调度器的学习

先看一下原生的任务调度器 package com.xxl.job.executor.service.jobhandler;import org.springframework.scheduling.annotation.EnableScheduling; import org.springframework.scheduling.annotation.Scheduled; import org.springframework.stereotype.Component;Compone…

3.Docker网络和资源控制

文章目录 Docker操作二Docker网络实现原理端口映射查看日志 网络模式host模式container模式none模式bridge模式自定义网络 Docker资源控制CPU资源控制设置CPU使用率上限设置CPU资源占用比&#xff08;设置多个容器才有效&#xff09;设置容器绑定指定CPU 内存使用限制设置磁盘I…

RK3399移植u-boot

RK3399移植u-boot 0.前言一、移植1.交叉工具链安装2.获取bl31.elf3.移植u-boot1)下载&#xff1a;2)配置&#xff1a;修改串口波特率&#xff1a;修改emmc&#xff1a;配置FIT&#xff1a;配置boot delay&#xff1a;(可选) 3)编译&#xff1a;4)生成idbloader.img文件&#xf…

使用 Docker 快速上手中文版 LLaMA2 开源大模型

本篇文章&#xff0c;我们聊聊如何使用 Docker 容器快速上手朋友团队出品的中文版 LLaMA2 开源大模型&#xff0c;国内第一个真正开源&#xff0c;可以运行、下载、私有部署&#xff0c;并且支持商业使用。 写在前面 感慨于昨天 Meta LLaMA2 模型开放下载之后&#xff0c;Git…