AI 大爆发时代,音视频未来路在何方?

news2025/1/21 4:15:36

AI 大模型突然大火了

回顾2024年,计算机领域最大的变革应该就是大模型进一步火爆了。回顾下大模型的发展历程:

  • 萌芽期:(1950-2005)
    1956年:计算机专家约翰·麦卡锡首次提出“人工智能”概念,标志着AI领域的诞生。
    1980年:卷积神经网络(CNN)的雏形诞生,为后续的深度学习奠定了基础。
    1998年:LeNet-5的出现,标志着机器学习从浅层模型向深度学习模型的转变,为自然语言处理和计算机视觉等领域的研究奠定了基础。
  • 探索沉淀期:(2006-2019)
    2013年:Word2Vec模型的诞生,首次提出将单词转换为向量的“词向量模型”,极大地推动了自然语言处理技术的发展。
    2014年:对抗式生成网络(GAN)的诞生,标志着深度学习进入了生成模型研究的新阶段。
    2017年:Google提出了基于自注意力机制的Transformer架构,为大模型的预训练算法架构奠定了基础。
    2018年:OpenAI和Google分别发布了GPT-1与BERT,标志着预训练大模型成为自然语言处理领域的主流。
  • 迅猛发展期:(2020-至今)
    2020年:OpenAI推出了GPT-3,模型参数规模达到1750亿,成为当时最大的语言模型,并在零样本学习任务上实现了巨大性能提升。
    2022年11月:搭载了GPT-3.5的ChatGPT发布,以其逼真的自然语言交互和多场景内容生成能力,迅速成为互联网上的热门话题。
    2023年3月:GPT-4的发布,这是一个超大规模的多模态预训练大模型,具备了多模态理解与多类型内容生成能力,标志着大数据、大算力和大算法的完美结合,大幅提升了大模型的预训练和生成能力。
    2024年:大模型技术继续飞速发展。OpenAI在2024年9月12日宣布了其最新系列AI模型o1,这是第一个具备真正通用推理能力的大模型,在处理复杂问题和推理任务时展现出的能力,预示着人工智能技术的一个历史性转折点。此外,2024年多模态大模型也加速突破,如OpenAI发布GPT-4o开始深度探索端到端的实时多模态大模型能力。

国内的 AI 大模型发展

随着OpenAI的流行,国内也兴起了大模型热潮,涌现了一批大模型应用,其中日活较多的应用有:

  • 豆包:字节跳动打造。
  • kimi:月之暗面推出。
  • 文心一言:百度推出。
  • 通义千问:阿里云打造。
  • 智谱清言:智谱华章自研的AI大模型。
  • 讯飞星火:科大讯飞打造。
  • 天工:昆仑万维自主研发。
    此外还有很多垂直领域的大模型应用,目前国内大模型应用已经到了百家齐放、百家争艳的阶段【统计数据来自网络】。
    在这里插入图片描述

大模型的兴起对音视频的影响

大模型的兴起和音视频技术之间是相辅相成,共同发展的关系;大模型为音视频的应用提供了更多的可能性,而传统的音视频技术也是大模型技术落地应用的核心技术基础之一。

  1. 创作:多模态数字人的出现,为音视频的创作带来更加丰富的素材和创作空间;同时革新了传统音视频的创作方式;为创作者提供了更加高效、更加便捷的创作工具。
  2. 处理:大模型提升了音视频的处理效率和智能化程度;多模态大模型可以同时分析视频中图像、音频、文本信息。
  3. 交互:大模型实现更自然的实时交互,推动AI应用场景大爆发,比如AI客服、AI社交、AI老师等等,使得音视频交互进一步增强。
  4. 传输:AI技术也可以优化音视频传输,根据不同的网络和用户设备,自动调整音视频的分辨率、码流等,提高传输效率,同时个性化推荐和分发。
  5. 消费:大模型的兴起还提升了用户体验,拓展了消费场景,如虚拟演唱会、互动式视频游戏等等。

音视频技术迭代更新

FFmpeg

FFmpeg 是一个完整的跨平台音视频解决方案,用于记录、转换和流式处理音视频。它是目前最强大的音视频处理开源软件之一,被广泛应用于视频网站、播放器、编码器等多种场景中。

2024年,FFmpeg 开源项目也进行了版本的迭代更新:

  • 2024.1.3:libavcodec库现在包含了一个原生VVC(Versatile Video Coding)解码器,支持该编解码器的大部分功能。进一步的优化和更多功能的支持即将到来。
  • 2024.4.5:发布了FFmpeg 7.0“Dijkstra”,此版本不向后兼容,移除了6.0之前弃用的API。某些弃用的ffmpeg CLI选项也被移除,现在需要C11兼容的编译器来构建代码。
  • 2024.5.13:FFmpeg社区宣布,德国的主权技术基金已成为其首个政府赞助商。
  • 2024.6.2:FFmpeg现在实现了原生xHE-AAC解码器。
  • 2024.9.30:FFmpeg 7.1“Péter”版本发布,在7.0版本中作为实验性功能合并的VVC解码器,经过足够的时间成熟和优化,现已被宣布为稳定功能;新增了对原生AAC USAC(xHE-AAC编码系统的一部分)解码器的支持;支持MV-HEVC解码;对Vulkan编码的支持,包括H264和HEVC。

因此,2024年FFmpeg依旧在稳步迭代更新,在音视频应用中继续扮演着核心地位角色。
在这里插入图片描述

WebRTC

作为音视频应用的另外一个核心角色开源项目,WebRTC(Web Real-Time Communication)用于在Web浏览器和移动应用程序之间实现实时音频、视频和数据共享。在RTC应用领域,可以说大部分应用核心都是采用的WebRTC或基于其改动的技术。

2024年,WebRTC 开源项目也进行了版本的迭代更新:

  • v125.6422.06.1(2024.10.31):升级到WebRTC-SDK M125.6422.06.1,是125.6422.06的重新发布,因之前上传错误。
  • v125.6422.06(2024.10.31):该版本因上传了错误的构建而不可用。原计划升级到WebRTC-SDK M125.6422.06,支持自定义音频输入,支持不使用麦克风的音频轨道。
  • v125.6422.05(2024.09.02):升级到WebRTC-SDK M125.6422.05,为MediaStreamTrack添加了isDisposed方法。
  • v125.6422.04(2024.07.28):升级到WebRTC-SDK M125.6422.04,修复了NetworkMonitor在分发原生观察者时的竞态条件。
  • v125.6422.03(2024.07.09):升级到WebRTC-SDK M125.6422.03,修复了麦克风静音时指示器不消失的问题,允许通过反射跳过AudioTrack播放状态检查。
  • v125.6422.02(2024.06.15):升级到WebRTC-SDK M125.6422.02。
  • v114.5735.11(2024.05.22):升级到WebRTC-SDK M114.5735.11,使音频输出属性可修改。
  • v114.5735.10(2024.04.08):升级到WebRTC-SDK M114.5735.10,为KeyProviderOptions添加了keyRingSize/discardFrameWhenCryptorNotReady。
  • v114.5735.09(2024.04.03):升级到WebRTC-SDK M114.5735.09,修复了外部音频处理器采样率计算问题,允许在任何地址端口上进行ice gathering。

因此,2024年 WebRTC 依旧在稳步迭代更新,在音视频应用中继续扮演着核心地位角色。
在这里插入图片描述

编解码技术

x264

H264编码标准仍然占据着一定的视频编码标准市场份额,而 x264 作为符合H264编码标准的开源项目,占据着主流地位,在2024年仍然持续更新迭代,2024年的源码迭代提交记录说明如下:

Use sched_getaffinity on Android
ci: Test compiling for Android
Enable use of __sync_fetch_and_add() wherever detected instead of just X86
Use sysctlbyname(3) hw.logicalcpu on macOS
aarch64: defines involving bit shifts should be unsigned
Make use of sysconf(3) _SC_NPROCESSORS_ONLN and _SC_NPROCESSORS_CONF
Use getauxval() on Linux and elf_aux_info() on FreeBSD/OpenBSD on arm/ppc
Fix build with Android NDK and API < 24 for 32-bit targets
configure: Add DragonFly support
Provide x264_getauxval() wrapper for getauxvaul() and elf_aux_info()
aarch64: Use elf_aux_info() for CPU feature detection on FreeBSD/OpenBSD
configure: Check for SVE support in MS armasm64 via as_check
x86inc: Improve ELF PIC support for external function calls
loongarch: Enhance ultrafast encoding performance
loongarch: Fixed pixel_sa8d_16x16_lasx
loongarch: Add checkasm_call
loongarch: Update loongson_asm.S version to 0.4.0
x86inc: Improve XMM-spilling functionality on 64-bit Windows
x86inc: Restore the stack state between stack allocations
x86inc: Fix warnings with old nasm versions
ppc: Fix incompatible pointer type errors
aarch64: Use regular hwcaps flags instead of HWCAP_CPUID for CPU feature detection on Linux
CI: Switch 32/64-bit windows builds to LLVM
CI: Add config.log to job artifacts
x86inc: Add support for ELF CET properties
x86inc.asm: Add the crc32 SSE4.2 GPR instruction
x86inc: Add a cpu flag for the Ice Lake AVX-512 subset
x86inc: Add CLMUL cpu flag
x86inc: Add template defines for EVEX broadcasts
x86inc: Properly sort instructions in alphabetical order
Bump dates to 2024

在这里插入图片描述

x265

HEVC视频编码标准已经慢慢占据视频编码标准应用的主流地位,x265 作为符合HEVC标准的开源项目,在2024年迎来多次代码提交,对比2023年的代码提交记录,2024年是x265代码更新较多的年份。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

其他音视频技术

  1. VLC:2024.6.10发布了3.0.21版本,这是VLC 3.0分支的第22次更新。
  2. VVenC:更新到了v1.12.0 版本。
  3. libaom:陆续更新了v3.9.0、v3.10.0版本。
  4. avs3:uAVS3e 1.0 版本发布。
  5. 此外还有OBS Studio、OpenCV、ijkplayer、JSMpeg、Opus、live555、Seetaface、GPUImage、Open nsfw model、Soundtouch、Jitsi等开源项目在音视频领域持续发光发热。

主流大厂音视频技术迭代更新

  1. 腾讯作为国内音视频应用的主流大厂之一,旗下有多款音视频应用app,比如腾讯会议、微信、腾讯视频、斗鱼等等,单单腾讯会议一个应用在20204年就更新了10个版本,如下表所示。此外在AVS3 编码标准、自研的TRTC、MSU编码大赛、SRS、SRT、VLC等项目中积极参与和发声,在音视频领域持续带来了非常重要的技术输出。
    在这里插入图片描述
  2. 字节跳动作为音视频应用的另外一个主流大厂之一,旗下多款关于音视频应用app,比如抖音、剪映、西瓜视频、飞书等等在2024年都持续迭代多个版本。此外,PersonaTalk 技术、Seed-TTS、视频大模型Vidu、RTM超低延时直播技术、6DoF直播创新方案、ICASSP 2024音频挑战赛、Loopy项目等等,都体现出字节跳动在音视频领域的持续创新以及与AI的深度交互。
  3. 阿里巴巴作为国内音视频应用的另外一大厂,旗下也多款音视频应用app,比如优酷、淘宝、钉钉等等在2024年都持续迭代多个版本。此外,RTC技术升级、窄带高清™2.0、百炼大模型服务平台更新、通义听悟升级、CosyVoice语音生成大模型、AtomoVideo框架、超低延时直播RTS等等都体现了阿里在音视频领域的持续创新及与AI的深度交互。
  4. 此外,还有像快手、声网、微帧、即构、网易云信等等在2024年依旧在音视频领域贡献着力量。

音视频的未来之路

随着 LiveVideoStack平台停更了音视频技术,目前较为系统的音视频交流平台也就剩下一些比如CSDN等博客网站、公众号了。虽然随着AI大模型的爆发对音视频领域有一定的冲击,但音视频的未来一定是充满创新和机遇的。

  1. 技术多元化与智能化
    • 编解码技术:新一代编解码器如H.266/VVC等正在加速研发和应用,有望在未来几年内实现更广泛的应用,进一步提高音视频质量和降低传输成本。
    • AI融合:AI技术将深度融入音视频处理,实现智能分析、推荐及个性化处理。例如,AI编码技术可以根据内容特点自动调整编码参数,实现更高效的压缩和传输。
    • 超低延迟技术:随着实时互动需求的增加,超低延迟技术成为重要发展方向。通过优化传输协议、提高编解码效率及利用边缘计算等技术手段,可以有效降低音视频传输的延迟时间,提升用户体验。
    • 虚拟现实与增强现实:VR/AR技术的融合将为音视频技术带来更加沉浸式的体验。未来,随着VR/AR设备的普及和技术的成熟,音视频技术将在娱乐、教育、医疗等领域实现更加广泛的应用和创新。
  2. 沉浸式体验与个性化服务
    • 3D音频和全息影像:通过3D音频和全息影像技术,为用户创造身临其境的视听感受,提升沉浸式体验。
    • 个性化推荐:基于用户行为和偏好的个性化推荐算法,将为每位观众提供定制化的音视频内容,增强用户黏性。
  3. 边缘计算与传输优化
    • 边缘计算:为了降低延迟,边缘计算将成为音视频通信的重要组成部分,数据将在离用户更近的地方处理。
    • 传输协议:更高效的编码压缩算法和传输协议的出现,将进一步降低音视频数据的存储和传输成本。
  4. 传统行业智能化
    • 智能化监控:在深井矿山、应急排障、隧道施工等领域,音视频技术结合AI技术可以实现智能化监控和管理,提高安全性和效率。
    • 数字文旅:数字文旅等新兴产业将借助音视频技术实现更加丰富的用户体验。
  5. 网络安全与隐私保护
    • 安全问题:随着音视频通信的普及,网络安全问题也日益突出,如何保护用户隐私和数据安全将成为重要课题。

未来,音视频与AI会更深度、更广泛、多维度的交互,为用户带来更多更好的应用体验。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2279638.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenEuler学习笔记(三):为什么要搞OpenEuler?

为什么要搞OpenEuler&#xff1f; 技术自主可控需求 在信息技术领域&#xff0c;操作系统是关键的基础软件。过去&#xff0c;很多关键技术被国外厂商掌控&#xff0c;存在技术“卡脖子”的风险。OpenEuler的出现可以为国内提供一个自主可控的操作系统选择。例如&#xff0c;在…

linux下的NFS和FTP部署

目录 NFS应用场景架构通信原理部署权限认证Kerberos5其他认证方式 命令serverclient查看测试系统重启后自动挂载 NFS 共享 高可用实现 FTP对比一些ftp服务器1. **vsftpd (Very Secure FTP Daemon)**2. **ProFTPD (Professional FTP Daemon)**3. **Pure-FTPd**4. **WU-FTPD (Was…

STM32-keil安装时遇到的一些问题以及解决方案

前言&#xff1a; 本人项目需要使用到STM32,故需配置keil 5&#xff0c;在配置时遇到了以下问题&#xff0c;并找到相应的解决方案&#xff0c;希望能够为遇到相同问题的道友提供一些解决思路 1、提示缺少&#xff08;missing&#xff09;version 5编译器 step1&#xff1a;找…

mfc操作json示例

首先下载cJSON,加入项目; 构建工程,如果出现, fatal error C1010: unexpected end of file while looking for precompiled head 在cJSON.c文件的头部加入#include "stdafx.h"; 看情况,可能是加到.h或者是.cpp文件的头部,它如果有包含头文件, #include &…

AI可信论坛亮点:合合信息分享视觉内容安全技术前沿

前言 在当今科技迅猛发展的时代&#xff0c;人工智能&#xff08;AI&#xff09;技术正以前所未有的速度改变着我们的生活与工作方式。作为AI领域的重要盛会&#xff0c;CSIG青年科学家会议AI可信论坛汇聚了众多青年科学家与业界精英&#xff0c;共同探讨AI技术的最新进展、挑…

调试Hadoop源代码

个人博客地址&#xff1a;调试Hadoop源代码 | 一张假钞的真实世界 Hadoop版本 Hadoop 2.7.3 调试模式下启动Hadoop NameNode 在${HADOOP_HOME}/etc/hadoop/hadoop-env.sh中设置NameNode启动的JVM参数&#xff0c;如下&#xff1a; export HADOOP_NAMENODE_OPTS"-Xdeb…

Ability Kit-程序框架服务(类似Android Activity)

文章目录 Ability Kit&#xff08;程序框架服务&#xff09;简介Stage模型开发概述Stage模型应用组件应用/组件级配置UIAbility组件概述概述声明配置 生命周期概述生命周期状态说明Create状态WindowStageCreate**和**WindowStageDestroy状态WindowStageWillDestroy状态Foregrou…

鸿蒙安装HAP时提示“code:9568344 error: install parse profile prop check error” 问题现象

在启动调试或运行应用/服务时&#xff0c;安装HAP出现错误&#xff0c;提示“error: install parse profile prop check error”错误信息。 解决措施 该问题可能是由于应用使用了应用特权&#xff0c;但应用的签名文件发生变化后未将新的签名指纹重新配置到设备的特权管控白名…

哈尔滨有双线服务器租用吗?

哈尔滨有双线服务器租用吗&#xff1f;双线服务器是一种针对哈尔滨特有的网络环境优化的服务器解决方案&#xff0c;它能够同时支持中国电信和中国联通或移动其中两家主要ISP&#xff08;互联网服务提供商&#xff09;的连接。 由于中国南方地区多采用电信网络&#xff0c;而北…

三天急速通关Java基础知识:Day1 基本语法

三天急速通关JAVA基础知识&#xff1a;Day1 基本语法 0 文章说明1 关键字 Keywords2 注释 Comments2.1 单行注释2.2 多行注释2.3 文档注释 3 数据类型 Data Types3.1 基本数据类型3.2 引用数据类型 4 变量与常量 Variables and Constant5 运算符 Operators6 字符串 String7 输入…

JVM 面试八股文

目录 1. 前言 2. JVM 简介 3. JVM 内存划分 3.1 为什么要进行内存划分 3.2 内存划分的核心区域 3.2.1 核心区域一: 程序计数器 3.2.2 核心区域二: 元数据区 3.2.3 核心区域三: 栈 3.2.4 核心区域四: 堆 4. JVM 类加载机制 4.1 类加载的步骤 4.1.1 步骤一: 加载 4…

《AI赋能中国制造2025:智能变革,制造未来》

引言&#xff1a;开启智能制造新时代 在全球制造业格局深度调整的当下&#xff0c;科技变革与产业转型的浪潮汹涌澎湃。2015 年&#xff0c;我国重磅推出《中国制造 2025》这一宏伟战略&#xff0c;它如同一座灯塔&#xff0c;为中国制造业驶向高端化、智能化、绿色化的彼岸指明…

Observability:最大化可观察性 AI 助手体验的 5 大提示(prompts)

作者&#xff1a;来自 Elastic Zoia_AUBRY 在过去三年担任客户工程师期间&#xff0c;我遇到了数百名客户&#xff0c;他们最常问的问题之一是&#xff1a;“我的数据在 Elastic 中&#xff1b;我该如何利用它获得最大优势&#xff1f;”。 如果这适用于你&#xff0c;那么本…

Mysql常见问题处理集锦

Mysql常见问题处理集锦 root用户密码忘记&#xff0c;重置的操作(windows上的操作)MySQL报错&#xff1a;ERROR 1118 (42000): Row size too large. 或者 Row size too large (&#xff1e; 8126).场景&#xff1a;报错原因解决办法 详解行大小限制示例&#xff1a;内容来源于网…

【前端】用OSS增强Hexo的搜索功能

文章目录 前言配置 _config.fluid.yml云端实时更新 local-search.xml解决 OSS.Bucket 的跨域问题 前言 原文地址&#xff1a;https://blog.dwj601.cn/FrontEnd/Hexo/hexo-enhance-local-search-with-oss/ 考虑到某著名云服务商提供的云服务器在两年的 99 计划后续费价格高达四…

ROS2 与机器人视觉入门教程(ROS2 OpenCV)

系列文章目录 前言 由于现有的ROS2与计算机视觉&#xff08;特别是机器人视觉&#xff09;教程较少&#xff0c;因此根据以往所学与积累的经验&#xff0c;对ROS2与机器人视觉相关理论与代码进行分析说明。 本文简要介绍了机器人视觉。首先介绍 ROS2 中图像发布者和订阅者的基…

02内存结构篇(D1_自动内存管理)

目录 一、内存管理 1. C/C程序员 2. Java程序员 二、运行时数据区 1. 程序计数器 2. Java虚拟机栈 3. 本地方法栈 4. Java堆 5. 方法区 运行时常量池 三、Hotspot运行时数据区 四、分配JVM内存空间 分配堆的大小 分配方法区的大小 分配线程空间的大小 一、内存管…

C#,入门教程(01)—— Visual Studio 2022 免费安装的详细图文与动画教程

通过本课程的学习&#xff0c;你可以掌握C#编程的重点&#xff0c;享受编程的乐趣。 在本课程之前&#xff0c;你无需具备任何C#的基础知识&#xff0c;只要能操作电脑即可。 不过&#xff0c;希望你的数学不是体育老师教的。好的程序是数理化的实现与模拟。没有较好的数学基础…

BGP边界网关协议(Border Gateway Protocol)路由引入、路由反射器

一、路由引入背景 BGP协议本身不发现路由&#xff0c;因此需要将其他协议路由&#xff08;如IGP路由等&#xff09;引入到BGP路由表中&#xff0c;从而将这些路由在AS之内和AS之间传播。 BGP协议支持通过以下两种方式引入路由&#xff1a; Import方式&#xff1a;按协议类型将…

【Vim Masterclass 笔记21】S09L39:Vim 设置与 vimrc 文件的用法示例(二)

文章目录 S09L39 Vim Settings and the Vimrc File - Part 21 Vim 的配色方案与 color 命令2 map 命令3 示例&#xff1a;用 map 命令快速生成 HTML 代码片段4 Vim 中的 Leader 键5 用 mkvimrc 命令自动生成配置文件 写在前面 本篇为 Vim 自定义配置的第二部分。当中的每个知识…