「人眼视觉不再是视频消费的唯一形式」丨智能编解码和 AI 视频生成专场回顾@RTE2024

news2024/11/18 22:08:44

在这里插入图片描述

你是否想过,未来你看到的电影预告片、广告,甚至新闻报道,都可能完全由 AI 生成?

在人工智能迅猛发展的今天,视频技术正经历着一场前所未有的变革。从智能编解码到虚拟数字人,再到 AI 驱动的视频生成,这一领域的创新正以惊人的速度推进。这些进步不仅提升了技术指标,更为实时互动、内容创作、广告营销等场景带来了全新的可能性。

在本届 RTE2024 实时互联网大会上,来自学界和业界的多位专家深入探讨了视频 AI 技术的最新进展。阿里巴巴达摩院的陈建华、声网的周世付、鹏城实验室的林荣群、双深科技的曹磊、生数科技的张旭东等行业专家分享了他们的研究成果和洞见。

北京大学的马思伟教授和声网视频编解码负责人戴伟分别主持了主题分享和圆桌讨论环节。

在这里插入图片描述

林荣群:AI 时代下的智能视频编解码新思路

在这里插入图片描述

鹏城实验室的林荣群博士以一个问题开篇:「如果视频内容全部由 AI 生成,我们该如何进行编码?」

林博士首先回顾了视频编码的发展历程,从早期以人眼感知为导向的保真度指标,到注重商业评级的阶段,再到如今 AI 时代对智能任务的需求,视频编码的目标不断演变。他指出,未来的智能编码不仅要满足人类视觉体验,更要服务于机器识别、检测等 AI 任务。

在介绍智能编码技术时,林博士强调了两个关键点:智能作为工具,提升我们对编码对象的理解;智能作为目标,服务于下游智能应用。他认为,智能编码的核心挑战在于对场景和对象进行结构化表示。「深入理解压缩对象,才能大幅提升压缩效率。」林博士解释道。

林博士随后详细介绍了几种智能编码的技术路线,包括传统编码与深度学习的融合、全神经网络框架以及生成式编码。他还特别介绍了鹏城实验室在文生视频大模型领域的实践,展示了团队基于国产框架和算力平台的最新成果。

展望未来发展方向,林博士提出了几个关键点:数据处理的重要性、算法优化、模型轻量化以及推理和采样速度的提升。

在这里插入图片描述

周世付:虚拟数字人的发展趋势与技术突破

在这里插入图片描述

声网人工智能算法负责人周世付首先介绍了虚拟数字人的基本概念,指出它是存在于数字空间中,拥有近似真人或卡通人物外貌、行为和特质的角色。一个成功的虚拟数字人需要兼具「好看的皮囊和有趣的灵魂」。

他将虚拟数字人的制作流程概括为三个阶段:建模、驱动和交互。建模阶段利用 AI 技术为特定人物创建模型;驱动阶段运用计算机视觉技术,赋予模型动态的表情和动作;最后,借助大语言模型,实现与虚拟数字人的自然流畅的交互。

展望未来,周世付认为虚拟数字人的发展将呈现四大趋势:

  1. 3D 智能数字人:3D 形式将成为主流,结合大语言模型实现更高级的智能化。
  2. 实时互动:传输表情参数而非图像像素,依靠终端设备重建数字人形象,实现低延迟、高流畅度的互动体验。
  3. 虚实融合:将数字人融入虚拟空间,增强沉浸式互动体验。
  4. 低成本应用:通过技术进步降低计算量和成本,推动数字人在更广泛的场景中应用。

在这里插入图片描述

陈建华:新一代视频编解码标准 VVC 的机遇与挑战

在这里插入图片描述

阿里巴巴达摩院高级算法专家陈建华从一线研发和应用的角度,深入剖析了 VVC(Versatile Video Coding)标准在实际落地过程中的关键问题。

关于 VVC 标准发布四年多来的发展现状,陈建华介绍说,支持 VVC 硬件的芯片正逐渐增多,包括联发科(MediaTek)、瑞昱(RealTek)等厂商均已发布相关产品。基于这些芯片,市场上已经出现了超过 100 款支持 VVC 的智能电视、机顶盒等设备。在软件生态方面,除了标准参考软件 VTM 之外,多个开源编解码器和播放器也已支持 VVC,为开发者提供了丰富的学习和研究资源。

以达摩院自研的 DAMO 266 为例,陈建华介绍了他们在软件解码器优化方面的创新成果。通过异构计算技术,将关键算法迁移到 DSP 等单元,显著降低了功耗,使 VVC 软解码在移动端的性能已接近 H.265 硬解码水平。这不仅扩展了 VVC 的设备覆盖范围,也为其大规模应用扫清了障碍。

在这里插入图片描述

曹磊:AI Codec 将引领视频编解码技术革新

在这里插入图片描述

双深科技 CEO 曹磊指出,在图像和视频大爆发的时代,提升编解码性能是实现降本增效的关键手段。AI 正在计算机视觉领域发挥越来越重要的作用,贯穿从成像到应用的整个过程。如果编解码也能融入 AI,整个流程将更加智能化。

曹磊指出,传统编解码技术发展到 H.266 后,提升空间已趋于平缓,且编码复杂度高,落地困难。相比之下,AI Codec 基于深度学习的端到端编码,能更好地表达细微特征,拥有更大的发展潜力。他引用了团队最新的研究成果,表明他们研发的 ANF 基础模型在平均数据序列上,相比 H.266 的参考软件 VTM,压缩率提升了约 25%,超越了 DCVC 等现有方案。同时,他还介绍了 IEEE 1857.11 HIV 标准,其中双深科技贡献了一项高效的并行熵编码核心专利。

曹磊重点分享了 AI Codec 在移动端落地的实践。为了实现落地,团队致力于模型轻量化,包括模型剪枝、蒸馏和量化等,并在算子定制化部署上投入了大量精力,以适应不同型号的手机 NPU。

在这里插入图片描述

张旭东:AI 视频生成技术的飞跃与实践

在这里插入图片描述

生数科技产品总监张旭东分享了 AI 视频生成技术的最新进展。他带领的团队深耕多模态大模型领域多年,亲历了从 GPT-3 到 ChatGPT 的技术变革,以及从图像生成到视频生成的跨越式发展。

张旭东回顾了团队在视频生成领域的探索历程。早在 2022 年,他们就提出了 U-ViT 框架,这一架构与后来备受瞩目的 Sora 有着诸多相似之处,其核心优势在于能够进行连续预测,从而获得更佳的一致性和效果。

生数科技的视频生成模型在实践中展现出多项显著优势:

  1. 强大的语义理解能力:能够精准捕捉复杂的场景描述。
  2. 多镜头语言支持:实现镜头间的流畅过渡。
  3. 极致的推理速度:仅需 30 秒即可生成一段视频。
  4. 出色的一致性表现:在不同场景中保持人物形象、动物特征等元素的一致性。
  5. 参考图像支持:可以根据提供的商品图、人物照片等生成相关视频。

这些特性赋予 AI 生成视频在广告制作、影视宣发等领域巨大的应用潜力。张旭东以动画电影《熊猫呼呼》和科幻电影《毒液》的宣传视频为例,展示了 AI 技术如何将原本 1-2 天的制作周期压缩至 3 小时内,极大地提升了效率。

在这里插入图片描述

圆桌讨论:视频生成的 ChatGPT 时刻何时到来?

在这里插入图片描述
在这里插入图片描述

在主题是「视频生成的 ChatGPT 时刻何时到来」的圆桌讨论中,声网视频编解码负责人戴伟担任主持人,邀请了包括始智 AI wisemodel 创始人刘道全、声网人工智能算法负责人周世付、生数科技联合创始人张旭东以及学界代表马思伟教授等嘉宾参与讨论。

在这里插入图片描述

刘道全认为,真正的「视频生成的 ChatGPT 时刻」需要融合图像、文本和语音等多种模态,生成完整的视频。目前的难点在于 多模态融合 ,但随着 LLaMA-Omni 等音频语言模型的出现,这种融合正在加速,未来可期。他还提到了始智 AI 在开源社区的贡献,例如 Sora 复刻计划,鼓励大家共同探索。

张旭东则对未来充满乐观。他认为,从技术的可用性来看,视频生成已经不再像过去那样生成不可用的内容,甚至已经与索尼等国际大 IP 达成合作,解决实际问题。但他指出,成本和渗透率仍然是制约因素 。目前单次视频生成的成本较高,限制了大规模应用。随着算力提升和算法优化,成本下降,渗透率将会提高,真正的「视频生成的 ChatGPT 时刻」也将到来。

周世付则从交互角度出发,认为 以语音交互为基础 ,结合大语言模型和数字人,或许会更快地推动「视频生成的 ChatGPT 时刻」的到来。

马思伟老师补充道,虽然视频生成面临一致性、时长等技术挑战,但从应用模式和技术发展来看,一些公司例如生数科技、智谱 AI 的 会员付费模式 ,既带来了资金支持,也积累了训练数据,形成了良性循环,推动着技术的进步。他乐观地认为,2024 年或许可以视为「视频生成 ChatGPT 时刻」的开端。

当机器也开始「生产」和「观看」视频,视频的意义将被重新定义。RTE2024 大会让我们思考,在人眼视觉之外,视频还能为我们带来什么?在机器视觉的时代,视频技术又将如何发展?这些问题,或许正是未来视频技术探索的方向。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2243045.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++:哈希拓展-位图

目录 一.问题导入 二.什么是位图? 2.1如何确定目标数在哪个比特位? 2.2如何存放高低位 2.3位图模拟代码实现 2.3.1如何标记一个数 2.3.2如何重置标记 2.3.3如何检查一个数是否被标记 整体代码实现 标准库的Bitset 库中的bitset的缺陷 简单应用 一.问题导入 这道…

nacos-operator在k8s集群上部署nacos-server2.4.3版本踩坑实录

文章目录 操作步骤1. 拉取仓库代码2. 安装nacos-operator3. 安装nacos-server 坑点一坑点二nacos-ui页面访问同一集群环境下微服务连接nacos地址配置待办参考文档 操作步骤 1. 拉取仓库代码 (这一步主要用到代码中的相关yml文件,稍加修改用于部署容器&…

Python爬虫----python爬虫基础

一、python爬虫基础-爬虫简介 1、现实生活中实际爬虫有哪些? 2、什么是网络爬虫? 3、什么是通用爬虫和聚焦爬虫? 4、为什么要用python写爬虫程序 5、环境和工具 二、python爬虫基础-http协议和chrome抓包工具 1、什么是http和https协议…

从北美火到中国,大数据洞察品牌“STANLEY”的突围之路

保守直筒大头的“硬汉”外形,以百变颜色踩中时尚命脉,与各路大牌“梦幻联动”,不少时尚弄潮儿没能逃过其“真香”诱惑。 这就是今年以来从北美火到中国的STANLEY,在“巨无霸”水杯中突围出属于自己的一条路。 最近STANLEY又整活…

Java结合ElasticSearch根据查询关键字,高亮显示全文数据。

由于es高亮显示机制的问题。当全文内容过多,且搜索中标又少时,就会出现高亮结果无法覆盖全文。因此需要根据需求手动替换。 1.根据es的ik分词器获取搜索词的分词结果。 es部分: //中文分词解析 post /_analyze {"analyzer":"…

Python绘制雪花

文章目录 系列目录写在前面技术需求完整代码代码分析1. 代码初始化部分分析2. 雪花绘制核心逻辑分析3. 窗口保持部分分析4. 美学与几何特点总结 写在后面 系列目录 序号直达链接爱心系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4…

Linux性能优化之火焰图简介

Linux 火焰图(Flame Graph)是一种可视化工具,用于分析程序性能问题,尤其是 CPU 使用情况。它展示了程序中函数调用的层次结构和各个调用栈占用的时间比例。 以下是详细介绍,包括火焰图的工作原理、生成步骤和实际使用中…

Axure设计之文本编辑器制作教程

文本编辑器是一个功能强大的工具,允许用户在图形界面中创建和编辑文本的格式和布局,如字体样式、大小、颜色、对齐方式等,在Web端实际项目中,文本编辑器的使用非常频繁。以下是在Axure中模拟web端富文本编辑器,来制作文…

Python中的正则表达式教程

一、 正则表达式基础 1。1。概念介绍 正则表达式是用于处理字符串的强大工具,它并不是Python的一部分。 其他编程语言中也有正则表达式的概念,区别只在于不同的编程语言实现支持的语法数量不同。 它拥有自己独特的语法以及一个独立的处理引擎,在提供了正则表达式…

脑机接口、嵌入式 AI 、工业级 MR、空间视频和下一代 XR 浏览器丨RTE2024 空间计算和新硬件专场回顾

这一轮硬件创新由 AI 引爆,或许最大受益者仍是 AI,因为只有硬件才能为 AI 直接获取最真实世界的数据。 在人工智能与硬件融合的新时代,实时互动技术正迎来前所未有的创新浪潮。从嵌入式系统到混合现实,从空间视频到脑机接口&…

Python爬虫下载新闻,Flask展现新闻(2)

上篇讲了用Python从新闻网站上下载新闻,本篇讲用Flask展现新闻。关于Flask安装网上好多教程,不赘述。下面主要讲 HTML-Flask-数据 的关系。 简洁版 如图,页面简单,主要显示新闻标题。 分页,使用最简单的分页技术&…

Linux下编译MFEM

本文记录在Linux下编译MFEM的过程。 零、环境 操作系统Ubuntu 22.04.4 LTSVS Code1.92.1Git2.34.1GCC11.4.0CMake3.22.1Boost1.74.0oneAPI2024.2.1 一、安装依赖 二、编译代码 附录I: CMakeUserPresets.json {"version": 4,"configurePresets": [{&quo…

Win10/11 安装使用 Neo4j Community Edition

如果你下载的是 Neo4j Community Edition 的压缩包,意味着你需要手动解压并配置 Neo4j。以下是详细的使用步骤: 0. 下载压缩包 访问Neo4j官网,找到 Community Edition 版本并选择 4.x 或者 5.x 下载:https://neo4j.com/deployme…

Spring Boot教程之Spring Boot简介

Spring Boot 简介 接下来一段时间,我会持续发布并完成Spring Boot教程 Spring 被广泛用于创建可扩展的应用程序。对于 Web 应用程序,Spring 提供了 Spring MVC,它是 Spring 的一个广泛使用的模块,用于创建可扩展的 Web 应用程序。…

基于java+SpringBoot+Vue的智能物流管理系统设计与实现

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: Springboot mybatis Maven mysql5.7或8.0等等组成&#x…

智能零售柜商品识别

项目源码获取方式见文章末尾! 600多个深度学习项目资料,快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【基于CNN-RNN的影像报告生成】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实现…

【Mysql】Mysql函数(上)

1、概述 在Mysql中,为了提高代码重用性和隐藏实现细节,Mysql提供了很多函数。函数可以理解为封装好的模块代码。 2、分类 在Mysql中,函数非常多,主要可以分为以下几类: (1)聚合函数 &#xf…

sql数据库-分页查询-DQL

目录 语法 注意 举例 语法 select 字段列表 from 表名 limit 起始索引,查询记录数; 注意 起始索引:即从第几条数据开始分页,简单理解为起始索引(查询页码-1)* 每页显示数据 分页查询在不同的数据库中有不同的方法。 查询第一页…

vue使用List.reduce实现统计

需要对集合的某些元素的值进行计算时,可以在计算属性中使用forEach方法 1.语法:集合.reduce ( ( 定义阶段性累加后的结果 , 定义遍历的每一项 ) > 定义每一项求和逻辑执行后的返回结果 , 定义起始值 ) 2、简单使用场景:例如下面…

CVE-2024-2961漏洞的简单学习

简单介绍 PHP利用glibc iconv()中的一个缓冲区溢出漏洞,实现将文件读取提升为任意命令执行漏洞 在php读取文件的时候可以使用 php://filter伪协议利用 iconv 函数, 从而可以利用该漏洞进行 RCE 漏洞的利用场景 PHP的所有标准文件读取操作都受到了影响&#xff1…