从大模型到内容生成,初窥门径的AI新次元

news2024/11/16 21:31:29
视频云AI进化新纪元。

最近Gartner发布2024年十大战略技术趋势,AI显然成为其背后共同的主题。全民化的生成式人工智能、AI增强开发、智能应用......我们正在进入一个AI新纪元。

从ChatGPT的横空出世,到开发者大会的惊艳亮相,OpenAI以一己之力掀起生成式AI产业变革。与此同时我们也看到,AI正以超乎想象的进化速度,给云服务和音视频带来了更多机遇与挑战。

在“云智深度融合”的行业共识之下,如何用好大模型,构建出符合行业需求的垂直场景模型,如何将生成式AI更好地与实际业务相结合,最大化发挥云服务“最佳拍档”的优势,已成为视频云领域甚是关心的话题。

同时,我们也对AI技术在音视频的进一步渗透,以及视频云应用场景的拓宽充满好奇与期待。

我们对话了「阿里云视频云」视觉算法方向负责人刘国栋、媒体服务负责人邹娟,一起围绕视频云大模型探索与AIGC实践应用,聊聊阿里云视频云在AI方向的新进展与新思考。

01 一场AI的热力风暴

高热的OpenAI开发者大会,给大模型与生成式AI风潮再次升温。在AI的遽变中,我们看到音视频的“危”与“机”都面临着更为深刻的变革。同时,我们希望获得AI的全面加持,在音视频全链路中将云智进行更深入地融合,从而提升整体音视频服务水平。

Q1:最近OpenAI开发者大会可以说是AI届的“科技春晚”,哪些令你印象深刻?

印象深刻的内容有很多,比如,OpenAI最新推出的GPT-4 Turbo模型,拓展到了128K的上下文窗口长度,实现了模型知识库的全面升级,支持DALL.E 3、GPT4-Vision、TTS等多模态API,以及支持模型微调定制;在开发者生态构建方面,OpenAI发布了GPT Assistants API和GPT Store,让开发者可以更方便地调用模型以及共享GPT的创意玩法;首次推出可为特定目的进行自定义的GPT,让不懂代码的用户也可轻松创建自己的ChatGPT版本。

毫无疑问,OpenAI带来的震撼是巨大的。它不只带来革命性的技术,而且已经开始构建自己的生态系统了,从炼丹走向商业化。同时,它也让我们看到AI技术已经进化到了更高层次,特别是在多模态理解与生成,语言理解与生成,以及GPT-4 Turbo作为决策中心的能力等方面,这些都与音视频技术有着直接或间接的联系,让我们看到了音视频技术发展的更多可能性。

Q2:你提到AI技术为音视频带来更多可能性,与此同时是否也带来了新的冲击?音视频领域对AI的要求是否更苛刻?

在音视频领域中,我们看到,音视频服务已广泛应用于互娱、广电传媒、教育、金融等各种行业,对场景的渗透也越来越深。这些行业、场景对体验的追求愈来愈高,同时用户希望用得起、更普惠,这都要求音视频服务具有高度的智能化。将提升音视频服务质量寄希望于AI,已逐渐成为业界共识。

随着AIGC的日新月异,音视频领域的AI技术也呈现出了新的趋势,即对算法的通用性、理解能力、生成能力都提出了更高的要求。过去纯粹的定制小模型开发、单模态处理和预测范式不再完美适配,而是走向了泛化能力非常强的预训练大模型、多模态信息融合、生成式范式等技术领域。

通过分析业务中发现的痛点问题,我们总结出几点视频云对AI算法的更高要求,即:追求效果性能上的极致体验,追求算法的泛化性、通用性,提升AI自主决策、规划处理链路的能力,降低开发、接入、使用的成本。

音视频领域对AI的要求无疑比自然语言领域更为苛刻,尤其是AI大模型如何更泛化地与音视频结合。就像何恺明博士提到的,相比于自然语言处理领域的预训练模型,在计算机视觉领域,还没有一个类似的视觉基础模型来覆盖大多数任务处理。视频云也会对AGI在音视频方向的进展保持时刻关注。

Q3:在音视频领域中,如何更好地“取AI之长”,来提升整体音视频服务水平?

从音视频的全链路视角来看,我们可以在音视频生命周期的各环节“取AI之长”。无论是音视频内容的采集、前处理与编码、视频的分析与理解、文件或实时流的处理与传输、以及媒体消费侧的互动反馈等,都可以从不同的角度和姿势使用AI技术,为音视频生命周期的多个模块提供更高效、更高质量的能力加持。

经过多年的实践,AI对阿里云视频云的赋能也是全栈的,覆盖了音视频“生产、处理、传输、消费”的全链路。当前AI技术与视频云业务高度绑定,在视频云为客户提供的涵盖媒体采集、媒资管理、内容生产制作和分发的一站式媒体服务能力集,以及视频直播、视频点播、音视频通信产品中,AI无处不在。而随着大模型和AIGC的爆发,AI还将为视频云带来新的业务模式和想象空间。

02 视频云大模型,让全链路进化

更好的通用性、更强大的理解生成能力,大模型的出现为视频云提供了新的思路与解法。然而,大模型在音视频全链路的赋能,既要考虑底层算法的原子化能力进化,也要考虑与音视频具体场景的完美适配,真正实现让大模型“为我所用”的绝佳效果。

(该部分源自与刘国栋的深入对话编辑而成)

Q4:从算法层面上来讲,你觉得大模型可以解决以往技术方案中的“沉疴旧疾”吗?

过去我们在设计算法时一般均采用小模型、传统算法或是两者结合的方法。这样的设计虽然可以少占用训练资源且速度快,部署容易,端侧落地性强,但是问题也比较突出,比如模型的泛化能力差,效果上限比较低,理解、生成能力比较差等。

而大模型出现后,它的通用性、多模态协同能力,强大的理解、生成能力等都让我们惊叹不已,这些正是小模型和传统算法所欠缺的。用大模型方法去重做一遍之前的算法,提高算法效果的上限是我们认为比较可行的做法。此外,我们也尝试使用大模型,来处理新的领域或问题,比如端侧的大模型设计。

Q5:视频云在设计大模型算法系统时,可以与我们分享一些“智能化”的思路吗?

我们根据视频云的业务特点,设计和搭建了一套视频云大模型算法开发的系统架构。整个系统涵盖了分析、规划、推理、评价、训练与微调的全链路,并且是可进化、可决策的。

可进化体现在,对于给定的任务,系统会进行从分析到训练的循环过程,并保持整个过程的不断迭代。可决策是指,系统会先借助视频云的知识库进行检索,再利用语言大模型给出执行路径。同时,知识库本身也在不断地丰富,我们会把评价高的规划信息、解决方法以及业务中沉淀的数据持续输入到知识库中,确保决策依据的与时俱进。

Q6:在大模型的算法探索上,视频云有没有一套研究路径或者总结出来的方法论?

基于大模型算法系统框架,我们不断地在业务中实践、演进,提炼出一套通用的大模型算法“方法论”,使其能高质量地解决业务中的实际问题。

例如,在完成实际任务时,单纯依靠大模型可以实现一些核心基本功能,但离解决得好还有不小距离,因此我们针对性提出了几种大小模型协同的方法,让大小模型互相配合,发挥其各自优势,获得了比较好的效果。

再比如,在大模型落地过程中,我们发现大模型更多针对通用场景,在音视频实际业务中往往效果不佳,当然这并不意味这些模型完全不可用。我们基于自己的业务场景,筛选出相对高质量的大模型,再结合已沉淀的数据、知识库进行大模型微调,使得模型准确度有了大幅提升

另外,针对大模型训练优化、推理性能、显存占用等方面,视频云都在实践过程中总结出基于大模型的算法优化路径,从而为音视频业务的智能化打好基础、铺好路。

Q7:相较于图文生成,视频生成大模型的技术门槛更高,需要克服的技术挑战也更多,视频云在这方面是怎样实践的?

无论是闭源的Midjourney,还是开源的stable diffusion,在图像生成方面都取得了惊人的效果。视频云的业务中也需要一些图像生成的能力,特别是云剪辑、云导播等产品,其中一个非常直接的需求就是背景图像的生成,我们在开源的stable diffusion等模型以及阿里通义大模型的基础上,结合视频云场景做了一些算法创新实践,使得生成图像与场景更匹配、生成质量更高

对于门槛更高的视频生成,我们也关注到runway等公司在这方面取得的长足进步,它生成视频的单帧质量接近sd等的效果,而且帧间一致性表现也挺好,不过离人们的预期还有距离。我们从视频云的业务场景出发,选择视频编辑赛道,重点开发视频转绘功能,即把视频转成不同的风格,从而提升剪辑产品的竞争力。此外,我们也选择较为合适的文生动画作为视频生成的一个细分场景进行探索。

Q8:在大模型算法实践方面,目前阿里云视频云在音视频全链路的哪些环节取得了新进展?

在过去近一年的时间内,视频云在大模型方面做了深入探索,开发了多个算法原子,所做工作涉及音视频生产、处理、管理、传输与分发、播放与消费全链路的多个环节。

比如,在音视频生产环节,我们开发了实景抠图、人声克隆、文生图、图生图、AI作曲等多个基于大模型的算法。其中人声克隆,经过算法的深入打磨,克隆出的声音跟本人的原始声音基本无法分辨。同时,结合语音驱动的数字人技术,人声克隆还可以打造出高度真实、自然的数字人,目前视频云的数字人产品也已上线,受到广泛关注。

此外,视频云在处理、媒资管理以及消费环节,都已经开发了基于大模型的算法,在算法效果方面有了不错的提升。

Q9:未来,结合大模型本身的进化(未来的多模态),阿里云视频云的思考以及探索路线?

目前大模型技术发展很快,如何“趁势而为”,更好地与音视频业务结合,有很多值得探索的方向,比如之前提到的端侧处理等。

我们知道大模型提供了多种解决问题的工具,比如问答、对话、文生图、图生图、视频描述等等,这些工具正在不断完善,能力越来越强,但基本都是解决单方面问题。我们希望大模型具有感知、规划、行动的能力,而这就是当前Agent的概念。这里的感知是多模态的,可以是音频、视频、文本等,不断提升大模型作为决策大脑的能力,让它能根据业务的需要,自主分析、规划行动路径,调度工具大模型。实际上不只在算法方面,在视频云的引擎、调度、业务层都已经涉及到非常多AI的能力。

03 AIGC,效率效果的「智能跃迁」

从单纯的辅助决策,到像人类一样思考,甚至再到超越人类的决策效果,也许AIGC的想象空间,只局限于我们的想象力,但视频云的全智能布局并不如此,要在音视频智能化的高速列车中保持优势,需要兼顾效率与效果的双轮提升,更需要视频云的长期布局与顶层设计。

(该部分源自与邹娟的深入对话编辑而成)

Q10:从业务的视角出发,大模型等AI技术在音视频场景中落地需要攻克哪些难题?是否需要“顶设”?

大模型在落地音视频业务时,需要解决两个问题:

首先,大模型要能与音视频处理的pipeline进行很好的融合,同时这个融合不能是粗粒度的,而最好是帧粒度的,这样才能避免多次编码带来的效率和画质损耗。

其次,由于大模型计算比传统AI计算更复杂,因此需要在算法工程优化层面做更多的工作,如利用多线程保证实时性、软硬一体提升性能、算法毛刺消除与降级等,这些工作都需要在媒体引擎层面进行整体设计和各种细节处理。

Q11:我们知道阿里云很早就开始在AI+视频的领域里扎根,而AIGC迎来爆发潮,对音视频而言是否产生了“质的飞跃”?

阿里云视频云长期坚持在AI领域进行技术布局,将AI与音视频技术相结合,并广泛应用于视频云的产品中。

事实上2017年我们已经将智能封面、AI审核、智能摘要、智能集锦、以及多种AI识别能力应用于媒体处理、视频点播、视频直播产品中,通过在部分业务环节中引入AI能力进行辅助处理,帮助客户缩短内容生产环节的耗时,助力其更快地发布视频内容。

如今AI技术爆发,我们看到它对音视频的赋能完成了从效率高到效果优的飞跃,以前我们认为AI的产出不如人工产出效果好,但现在这个局面已经发生了改变,无论是AI修复的图像画质,还是AI生成的素材质量,亦或AI可以像人一样去理解媒资内容,分析与提炼视频结构时甚至比人更细致,如今似乎已经到了音视频所有业务重新用AI去审视一遍,大部分场景可以用AI重构的时候。

Q12:针对用AI及大模型重构业务,目前阿里云视频云已经开展了哪些技术实践?

媒体内容生产有三大板块:媒资、生产制作、媒体处理,目前阿里云视频云在这三个板块都应用了AIGC技术,并在不少场景进行了技术实践。

比如在媒资领域,我们的方向是实现基于语义分析和自然语言理解的新媒资体系,将视觉内容、音频、文本内容统一到一个高维空间内,避免像传统的智能标签一样,将视频转换到文本时,出现语义的丢失或不一致。而针对搜索文本也无需使用多关键词组合的方式,可以直接输入自然语言,不再依赖分词进行搜索,整体相较于传统的智能标签,具有更好的泛化性。

在媒体处理板块,我们的技术实践则聚焦在效果优化上,无论是针对高清画质的增强,还是低清画质的修复,以及针对声音的智能全景声处理,我们令AI算法与音视频前处理算法,前处理算法与编码器有更好的配合,尽量保持真实感与细节还原,用户使用普通的播放设备也能享受高清晰度的音视频体验。

在生产制作的虚拟演播室场景,我们将基于大模型的分割算法进行了裁剪与优化,以支持实时场景的性能,同时实现了多层分割与多实体抠像,可以根据需求动态调整实景抠像的目标范围。另外,对于抠像边缘和光影的处理较之前会更加逼真,对于复杂背景的降噪也更强大,哪怕在新闻外场或者展会现场,复杂的拍摄背景+头发丝飞扬的人物,也能拥有比较完美的alpha通道成像,再结合RTC技术与虚拟背景融合,让多人实时互动虚拟演播效果提升一个台阶。

Q13:在AIGC的发展推动下,目前视频云媒体服务与LVS上海站分享时相比,解锁了哪些新场景、新能力?

LVS上海站是在7月底,在最近的3个多月,视频云媒体服务在AIGC方面有了更多的技术实践与应用,云剪辑、媒资、实时流制作、媒体处理都上线了新的AI能力,比如基于语义分析的自然语言媒资搜索、基于复杂背景的实景抠像、数字人智能剪辑合成等,这些能力大多用到了基于大模型的AIGC技术。

Q14:未来在AIGC的助力下,媒体内容生产的智能化程度有可能达到什么水平?会“类人”吗?

我认为媒体内容生产的未来趋势是进入全智能时代,即:AI从“向人学习”,到“像人一样”,最终到部分场景“超越人”,比如AI可以自主创作有故事的视频,可以对媒资内容进行全语义理解,可以自行优化音视频编码和前处理,可以尝试做一些决策处理等等,我们期待那一天的到来。

04 视频云,AI不止

Topic 1:《AI新范式下,阿里云视频云大模型算法实践》

本次演讲将分享阿里云视频云大模型算法系统架构,以及实操中的关键技术,此外还将展现大模型算法典型实践案例,以及对于未来大模型落地更多可能的思考。

Topic 2:《AIGC时代下,阿里云视频云媒体内容生产技术实践》

本次演讲将分享阿里云视频云媒体服务的整体技术架构,融合AI与传统媒体处理的一体化媒体引擎的关键技术,还将分享如何应用AIGC技术,重构媒体内容生产的三大模块—内容创作、媒体处理、媒资管理,以及AIGC落地相关场景的技术实践。

于AI中见天地

从大模型到内容生成

期待阿里云视频云的AI主题与实践分享

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1234276.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM--Java虚拟机

0. java代码的执行过程 了解Java虚拟机(JVM)首先需要了解一下一段Java代码的具体执行过程。 Java代码的具体执行过程如下: 执行 javac 命令编译源代码为字节码执行 java 命令,二进制字节码通过解释器翻译为机器码 创建 JVM&…

《QT从基础到进阶·三十五》QT插件实现侧边工具栏tabBar

tabBar是用QT插件实现的一个dll,对于插件的使用可以参考文章: 《QT从基础到进阶三十三》QT插件开发QtPlugin 源码放在文章末尾 该功能类似侧边工具栏,可以在该标签栏上添加自己开发的界面,实现代码如下: 1、所有功能…

【大数据分布并行处理】实验测试(一)

文章目录 测试任务1测试任务2测试任务3 测试任务1 使用HDFS相关命令完成下列四个操作(20分) 操作1:在HDFS根目录创建以自己名字命名的目录,并查看是否创建成功(5分)。 提示:截图包括&#xff…

目标检测 详解SSD原理,数据处理与复现

原理详解 前言 今天我们要读的这篇VGGNet(《Very Deep Convolutional Networks For Large-Scale Image Recognition》),就是在AlexNet基础上对深度对网络性能的影响做了进一步的探索。它是ImageNet 2014年亚军,相比于AlexNet&am…

智能车入门补充篇——电感值处理、转向控制与巡线

冒泡法 冒泡法是一种简单的排序算法,它重复地遍历要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。遍历数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。冒泡排序的时间复杂度为O(n^…

电脑上可以写便签的软件哪些界面比较可爱且好用?

电脑上可以安装使用的便签类软件比较多,在选择使用电脑便签软件时,很多人对便签的外观界面还是比较在意的,一个好看的便签界面在一方面可以引起大家的注意,另一方面可以增加电脑桌面背景和便签类软件的协调性。 电脑便签软件通常…

Web测试中文件上传测试

总体情况 1、功能实现: (1)文件类型正确、大小合适 (2)文件类型正确,大小不合适 (3)文件类型错误,大小合适 (4)文件类型和大小都合适&#x…

引迈-JNPF低代码项目技术栈介绍

从 2014 开始研发低代码前端渲染,到 2018 年开始研发后端低代码数据模型,发布了JNPF开发平台。 谨以此文针对 JNPF-JAVA-Cloud微服务 进行相关技术栈展示: 1. 项目前后端分离 前端采用Vue.js,这是一种流行的前端JavaScript框架&a…

风丘远程试验管理平台TFM 支持“一键式“数据管理和监控

随着信息技术的高速发展,企业对远程试验实时监控与数据管理的需求日益增强。而利用远程试验信息协同技术,可突破部门与地域的限制,并把试验现场的车辆状态信息、试验数据和分析结果实时传输给数据分析部门和设计部门等,从而缩短时…

SQL的连接join

一、连接说明 union、intersect等集合运算,它的特征是以 “行” 为单位进行操作,通俗点说,就是进行这些集合运算,会导致记录行数的增减,使用union会增加记录行数,使用 intersect 或 expect 会减少行记录&a…

印刷企业数字工厂管理系统建设方案

随着科技的飞速发展,传统印刷企业正面临着前所未有的挑战。产能短缺、质量控制不足、成本控制不力以及服务质量不高等问题成为了制约企业发展的瓶颈。为了解决这些问题,印刷企业需要积极拥抱数字化转型,构建数字工厂管理系统。 一、印刷企业数…

Figma 是什么软件?为什么能被Adobe收购

很多人一定早就听说过Figma的名字了。看到很多设计同行推荐,用了很久,疯狂的安利朋友用。是什么让这么多设计师放弃了FigmaSketch的魅力?下面的内容将详细分享一些与Figma相关的知识点,并介绍这个经常听到但不熟悉的工具。 Figma…

nacos鉴权报invalid username or password

操作 你得检查一下nacos的配置的数据库有没有缺少表,可以在下图找到nacos的官方的配置库: 然后注意到这个SQL文件的最后的两行,这两行就是插入默认的nacos的登录密码的,如果你设置了对应的配置的文件其实也是没有用的最后他还是…

最小最大表示法超详细讲解

文章目录 前言循环同构串最小表示法暴力解法暴力解法的可优化之处最小表示法的代码实现 最大表示法 前言 最小/最大表示法是用来找出字符串的最小/最大字典序的循环同构串的方法,其求解算法可以达到O(N),过程很像KMP算法的next数组推导过程,都…

k8s-pod管理 3

pod是可以创建和管理k8s 计算的最小可部署单元,一个pod 代表着集群中运行的一个进程,每个pod 都有一个唯一的ip pod包裹了容器 下载测试镜像 创建自主式的pod 查看创建的pod的详情信息 删除pod 创建控制器 副本过多,需要进行负载均衡减轻节点…

uniapp中实现圆形进度条的方式有哪些?

前言 在uniapp开发小程序或者apk时,页面需要用到一个圆形进度条(带文字和百分比的),自己也自定义过一个,但是有一点小问题,咱先展示如何引入插件市场的在介绍自定义的!一共四种,但是你需要考虑自…

G管螺纹尺寸对照表

G管螺纹尺寸对照表 NPT 是 National (American) Pipe Thread 的缩写,属于美国标准的 60 度锥管螺纹,用于北美地区.国家标准可查阅 GB/T12716-1991 PT 是 Pipe Thread 的缩写,是 55 度密封圆锥管螺纹,属惠氏螺纹家族&a…

视频剪辑技巧:如何高效地将多个视频合并成一个新视频

在视频制作过程中,将多个视频合并成一个新视频是一个常见的操作。这涉及到将多个片段组合在一起,或者将不同的视频素材进行混剪。无论是制作一部完整的影片,还是为社交媒体提供短视频,都要掌握如何高效地将多个视频合并。现在一起…

广州华锐互动:3D模拟体验火箭发射过程有什么教育意义?

3D虚拟还原火箭发射过程在教育领域有着深远的意义。它能够为学生提供直观、生动的体验,帮助他们更好地理解和掌握相关知识,激发他们对科技的兴趣和探索欲望。 首先,3D虚拟还原火箭发射过程可以帮助学生更好地理解和掌握航天科技知识。在火箭发…

vue-waterfall2 实现瀑布流,及总结的问题

注意:引入需要在主界面引入,直接在组件中引用会有问题 1.安装 npm install vue-waterfall21.8.20 --save (提示:一定要安装1.8.20,最新版会有一部分问题) 2.打开main.js文件 import waterfall from v…