音视频相关的一些基本概念

news2025/1/15 17:07:24

音视频相关的一些基本概念

文章目录

    • 音视频相关的一些基本概念
      • RTT
      • H264
      • profile & level
      • I帧 vs IDR
      • MP4 封装格式
      • AAC封装格式
      • TS封装格式
      • Reference

RTT

TCP中的RTT指的是“往返时延”(Round-Trip Time),即从发送方发送数据开始,到发送方接收到来自接收方的确认消息所经过的时间。
RTT时延通常由三部分决定:链路的传播时间、末端系统的处理时间、路由器等网络中间节点的缓存和排队时间。
正常情况下报文的传输时间和在应用处理时间相对固定,在网络拥堵情况下会出现RTT时延的波动。

RTT是衡量网络传输性能的重要指标之一,能够反映出数据在网络中传输的速度和稳定性。
通常情况下,RTT越短,网络传输的速度就越快,反之则越慢。
因此,通过监测TCP中的RTT时延,可以初步判断网络的性能如何。
但需要注意的是,RTT时延只是一个指标,要全面评估网络性能还需要结合其他指标进行综合分析。

H264

从功能角度分为两层: 视频编码层(VCL)和网络提取层(NAL)
从码流解析的角度: H264 码流实际可以理解为由一个一个的 NALU 单元组成。

视频编码层(VCL)

VCL: 进行视频编解码,包括预测(帧内预测和帧间预测),DCT 变化和量化,熵编码和切分数据等功能,是为了实现更高的视频压缩比。
NAL: 负责以网络所要求的恰当的方式对 VCL 数据进行打包和传送.
VCL工作过程:

  1. 压缩:预测(帧内预测和帧间预测)-> DCT 变化和量化 -> 比特流编码;
  2. 切分数据,主要为了第三步。这里一点,网上看到的“切片(slice)”、“宏块(macroblock)”是在VCL 中的概念,一方面提高编码效率和降低误码率、另一方面提高网络传输的灵活性。
  3. 压缩切分后的 VCL 数据会包装成为 NAL 中的一部分

NAL单元-NALU

NALU分为NAL unit header 和 NAL unit payoad

  • NALU header结构
    forbidden_zero_bit 在网络传输中发生错误时,会被置为 1,告诉接收方丢掉该单元;否则为 0。
    nal_ref_idc 用于表示当前NALU的重要性,值越大,越重要。解码器在解码处理不过来的时候,可以丢掉重要性为 0 的 NALU。NALU类型说明
  • NALU类型说明
    在这里插入图片描述
  • NALU header 解析举例

00 00 00 01 06: SEI
00 00 00 01 67: 0x67&0x1f = 0x07: SPS
00 00 00 01 65: 0x65&0x1f = 0x05: IDR

  • H264分层结构
    在这里插入图片描述

profile & level

Profile和Level是H.264中一个非常重要的概念,Profile用于确定视频编码过程中帧间压缩使用的算法(例如是否包含B帧、CABAC支持、颜色空间支持等),Profile越高,就说明采用了越高级的压缩特性,对应的对编解码硬件的要求也越高;
Level是对视频本身特性的一些描述(码率,分辨率,fps等),Level越高,视频的码率、分辨率、fps越高。

对于H.264的Profile和Level比较专业化的描述是:Profile@Level,例如Main@4.2,Baseline@3.1,High@5.0。

I帧 vs IDR

举个例子,在一段视频中,
存在以下帧:I P B P B P B B P1 I P2 B…
如果这段视频应用了多重参照帧,那么P2 帧在参照他前面的I 帧的同时,还可能会参照I 帧之前的P1 帧,由于I 帧前后的场景可能会有很大的反差甚至根本不同,所以此时P 帧参考I帧之前的帧不但会没有意义,反而会造成很多问题。
所以一种新型的帧被引入,那就是IDR 帧。如果这段视频应用了多重参考帧的同时采用了IDR 帧,那么帧的顺序就会变成这样:I P B P B P B B P1 IDR P2 B…由于IDR 帧禁止后面的帧向自己前面的帧参照,所以这回P2 帧就不会参照P1 帧了。

MP4 封装格式

Bento4-SDK-1-6-0-639.x86_64-microsoft-win32\bin\mp4dump.exe --verbosity 0 D:\test.mp4 >D:\test.txt

[ftyp] size=8+24
  major_brand = mp42
  minor_version = 1
  compatible_brand = mp42
  compatible_brand = mp41
  compatible_brand = isom
  compatible_brand = avc1
[free] size=8+0
[mdat] size=8+11329609
[moov] size=8+157226
  [mvhd] size=12+96
    timescale = 1000
    duration = 300011
    duration(ms) = 300011
  [trak] size=8+96887
    [tkhd] size=12+80, flags=1
      enabled = 1
      id = 1
      duration = 300000
      width = 240.000000
      height = 136.000000
    [mdia] size=8+96787
      [mdhd] size=12+20
        timescale = 30000
        duration = 8999991
        duration(ms) = 299999
        language = und
      [hdlr] size=12+44
        handler_type = vide
        handler_name = Test MP4 - Video AVC
      [minf] size=8+96691
        [vmhd] size=12+8, flags=1
          graphics_mode = 0
          op_color = 0000,0000,0000
        [dinf] size=8+28
          [dref] size=12+16, flags=acf9fd
            [url ] size=12+0, flags=1
              location = [local to file]
        [stbl] size=8+96627
          [stsd] size=12+135, flags=11e840
            entry_count = 1
            [avc1] size=8+123
              data_reference_index = 1
              width = 240
              height = 136
              compressor = 
              [avcC] size=8+37
                Configuration Version = 1
                Profile = Main
                Profile Compatibility = 40
                Level = 13
                NALU Length Size = 4
                Sequence Parameter = [67 4d 40 0d 96 62 07 89 fc b0 80 00 00 32 00 00 0b b5 47 8a 14 89]
                Picture Parameter = [68 ee 3c 80]
          [stts] size=12+12
            entry_count = 1
          [ctts] size=12+57276
            entry_count = 7159
          [stss] size=12+868
            entry_count = 216
          [stsc] size=12+28
            entry_count = 2
          [stsz] size=12+35972
            sample_size = 0
            sample_count = 8991
          [stco] size=12+2252
            entry_count = 562
  [trak] size=8+60215
    [tkhd] size=12+80, flags=1
      enabled = 1
      id = 2
      duration = 300011
      width = 0.000000
      height = 0.000000
    [mdia] size=8+60115
      [mdhd] size=12+20
        timescale = 48000
        duration = 14400512
        duration(ms) = 300010
        language = und
      [hdlr] size=12+44
        handler_type = soun
        handler_name = Test MP4 - Audio AAC
      [minf] size=8+60019
        [smhd] size=12+4
          balance = 0
        [dinf] size=8+28
          [dref] size=12+16, flags=73b98f
            [url ] size=12+0, flags=1
              location = [local to file]
        [stbl] size=8+59959
          [stsd] size=12+79, flags=a29ce1
            entry_count = 1
            [mp4a] size=8+67
              data_reference_index = 1
              channel_count = 2
              sample_size = 16
              sample_rate = 48000
              [esds] size=12+27
                [ESDescriptor] size=2+25
                  es_id = 0
                  stream_priority = 0
                  [DecoderConfig] size=2+17
                    stream_type = 5
                    object_type = 64
                    up_stream = 0
                    buffer_size = 0
                    max_bitrate = 0
                    avg_bitrate = 0
                    DecoderSpecificInfo = 11 90 
                  [Descriptor:06] size=2+1
          [stts] size=12+12
            entry_count = 1
          [stsc] size=12+28
            entry_count = 2
          [stsz] size=12+56260
            sample_size = 0
            sample_count = 14063
          [stco] size=12+3520
            entry_count = 879

AAC封装格式

AAC(Advance Audio Coding):
即高级音频编码,出现在1997年,基于MPEG-2的音频编码技术,当时被称为MPEG-2 AAC,因此把其作为MPEG-2(MP2)标准的延伸。是由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发,目的是取代MP3格式,随着MPEG-4(MP4)标准在2000年的成型,则为AAC也叫M4A。

AAC格式包括ADIF,ADTS和LATM. 需要说明的是ADIF,ADTS和LATM只是AAC的三种封装方式,只是封装方式不同,编码数据都是一致的。

1:ADIF:只有一个头,其余后面都跟着raw data,文件存储体积小,只能从开始处一帧一帧解码,无法跳播,无法从中间位置解码。

Audio Data Interchange Format 音频数据交换格式,该格式一般应用在将音频通过写文件方式存储在磁盘里的场景,不能进行随机访问,不允许在文件中间开始进行解码;只能从文件头开始解码,无法跳播。

2:ADTS:每帧都有7个字节的头,方便跳播,从任何位置都可以直接进行解码。

ADTS:Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。这种格式可以用于广播电视。
ADIF只有一个文件头,ADTS每个包前面有一个文件头。
在这里插入图片描述

3:LATM:LATM格式具有很大的灵活性,每帧的音频配置单元既可以带内传输,又可以带外传输。正因为如此,LATM不仅适用于流传输还可以用于RTP传输,特别时CMMB广播默认码流格式为LATM。

LATM 的全称为“Low-overhead MPEG-4 Audio TransportMultiplex”(低开销音频传输复用),是MPEG-4 AAC制定的一种高效率的码流传输方式,MPEG-2 TS 流也采用LATM作为AAC 音频码流的封装格式之一。

TS封装格式

TS 全称是 MPEG2-TS,MPEG2-TS 是一种标准容器格式,传输与存储音视频、节目与系统信息协议数据,广泛应用于数字广播系统,我们日常数字机顶盒接收到的就是 TS(Transport Stream,传输流)流。

+-+-+-+-+     +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-
|  TS   |  =  |  Packet 1 |  Packet 2 |  Packet 3 | ... | Packet n-1|  Packet n |
+-+-+-+-+     +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-

TS 传输流中几个基本概念:

  • ES (Elementary Stream):基本流,直接从编码器出来的数据流,可以是编码过的音频、视频或其他连续码流;
  • PES (Packetized Elementary Streams):PES流是ES流经过打包处理后形成的数据流,在这个过程中完成了将ES流分组、加入包头信息(PTS、DTS 等)操作。PES流的基本单位是PES包,PES包由包头和payload组成;
  • PS 流 (Program Stream):节目流,PS 流由 PS 包组成,而一个 PS 包又由若干个 PES 包组成。一个 PS 包由具有同一时间基准的一个或多个 PES 包复合合成;
  • TS 流 (Transport Stream):传输流,TS 流由固定长度(188 字节)的 TS 包组成,TS 包是对 PES 包的另一种封装方式,同样由具有同一时间基准的一个或多个 PES 包复合合成。PS 包是不固定长度,而 TS 包为固定长度;

TS 文件分为三层:TS 层、PES 层、ES 层。ES 层就是音视频数据,PES 层是在音视频数据上加了时间戳等数据帧的说明信息,TS层是在PES层上加入了数据流识别和传输的必要信息。

TS 包大小固定为 188 字节,TS 层分为三个部分:TS header、adaptation field、payload;
TS header 固定 4 个字节(0x47开头作为同步字节);
adaptation field 可能存在也可能不存在,主要作用是给不足 188 字节的数据做填充;
payload 是 PES 数据;

One TS Packet:

  4bytes          xbytes          (184-x)bytes
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 
| TS header | adaptation field | payload(PES) | 
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
One payload(PES):

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 
| PES header | optional PES header | payload(ES) | 
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
One payload(ES NALU)

Video:
 3 or 4 bytes    1byte       xbytes
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 
| StartCode  | NAL header | H264 data | 
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

Audio:
  7bytes        xbytes
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 
| ADTS header | AAC data | 
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

Reference

TCP中RTT时延的理解

H264码流结构详解
H.264中的Profile和Level
I帧、P帧和B帧的特点及IDR

AAC_ADTS_1
AAC_ADTS_2

音视频封装 - TS 封装格式
TS文件格式详解及解封装过程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2250784.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flink--API 之Transformation-转换算子的使用解析

目录 一、常用转换算子详解 (一)map 算子 (二)flatMap 算子 (三)filter 算子 (四)keyBy 算子 元组类型 POJO (五)reduce 算子 二、合并与连接操作 …

工业公辅车间数智化节能头部企业,蘑菇物联选择 TDengine 升级 AI 云智控

小T导读:在工业节能和智能化转型的浪潮中,蘑菇物联凭借其自研的灵知 AI 大模型走在行业前沿,为高能耗设备和公辅能源车间提供先进的 AI 解决方案。此次采访聚焦于蘑菇物联与 TDengine 的合作项目,通过 AI 云智控平台的建设&#x…

TensorFlow实战:黄文坚版Python代码详解

本文还有配套的精品资源,点击获取 简介:本书由黄文坚撰写,深入介绍了TensorFlow的使用方法。TensorFlow是谷歌开发的开源库,用于数值计算和机器学习,特别是在深度学习方面。书中通过丰富的实例和详细解释&#xff0c…

Java项目中加缓存

Java项目中加缓存 1.更新频率低;但读写频率高的数据很适合加缓存; 2.可以加缓存的地方很多:浏览器的缓存;CDN的缓存;服务器的缓存; 本地内存;分布式远端缓存; 加缓存的时候不要…

Elasticearch索引mapping写入、查看、修改

作者:京东物流 陈晓娟 一、ES Elasticsearch是一个流行的开源搜索引擎,它可以将大量数据快速存储和检索。Elasticsearch还提供了强大的实时分析和聚合查询功能,数据模式更加灵活。它不需要预先定义固定的数据结构,可以随时添加或修…

PyMOL操作手册

PyMOL 操作手册 The man will be silent, the woman will be tears. – itwangyang ​ 翻译整理:itwangyanng 2024 年 11月 29 日 目录 初识 PyMOL… 5 0.1 安装 PyMOL… 5 0.1.1 Windows 系统开源版 PyMOL 的安装… 5 0.1.2 教育版 PyMOL 的下载安装……

RabbitMQ原理架构解析:消息传递的核心机制

文章目录 一、RabbitMQ简介1.1、概述1.2、特性 二、RabbitMQ原理架构三、RabbitMQ应用场景3.1、简单模式3.2、工作模式3.3、发布订阅3.4、路由模式3.5 主题订阅模式 四、同类中间件对比五、RabbitMQ部署5.1、单机部署5.2、集群部署(镜像模式)5.3、K8s部署…

《白帽子讲Web安全》15-16章

《白帽子讲Web安全》15-16章 《白帽子讲Web安全》15章15、Web Server配置安全15.1、Apache安全15.2、Nginx安全15.3、jBoss远程命令执行15.4、Tomcat远程命令执行15.5、HTTP Parameter Pollution15.6、小结 第四篇 互联网公司运营安全《白帽子讲Web安全》16章16、互联网业务安全…

使用R语言进行美国失业率时空分析(包括绘图)

今天写一篇利用R语言,针对面板数据的简单分析与绘图。让我们直接开始把。 一、数据准备 这次的示例数据非常简单,只有一个shp格式的美国区县矢量数据,我们在QGIS中打开数据查看一下它的属性表。事实上我们需要的数据都在属性表的字段中。 二…

计算机毕业设计Python+LSTM天气预测系统 AI大模型问答 vue.js 可视化大屏 机器学习 深度学习 Hadoop Spark

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

YOLOv8实战无人机视角目标检测

本文采用YOLOv8作为核心算法框架,结合PyQt5构建用户界面,使用Python3进行开发。YOLOv8以其高效的实时检测能力,在多个目标检测任务中展现出卓越性能。本研究针对无人机目标数据集进行训练和优化,该数据集包含丰富的无人机目标图像…

uniapp App端在renderjs层渲染echarts获取不到service层id的问题

报错信息:Cannot read properties of undefined (reading id) at app-view.js 这样的写法App端有时在renderjs视图层获取不到server逻辑层的数据 server层 renderjs层 解决方法:需要把数据(id)通过server层向renderjs层传值 server层 renderjs层

【数据湖仓】-- 阿里云 EMR 和 AWS EMR 工具对比

目录 1. 基础设施和集成生态 阿里云 EMR: AWS EMR: 2. 性能与可扩展性 阿里云 EMR: AWS EMR: 3. 成本对比 阿里云 EMR: AWS EMR: 4. 易用性和用户体验 阿里云 EMR: AWS EMR: 5. 总结对比 阿里云 EMR(Elastic MapReduce)和 AWS EMR(Amazon Elas…

Ubuntu在NVME硬盘使用Systemback安装记录

问题 使用Systemback重装系统找不到NVME硬盘。 0.使用Systemback制作iso后,制作启动盘 1.插入启动盘进入live mode模式 2.安装gparted sudo apt-get update sudo apt-get install gparted3.使用gparted对待分区硬盘进行分区 gparted按照你希望的分区方式分区即…

BUUCTF—Reverse—GXYCTF2019-luck_guy(9)

下载附件,照例扔入Exeinfo PE查看信息 可执行文件,IDA 64位直接干 进main函数,F5反编译,看主要处理函数,跳转进去 查看,点进patch_me(v4)看看是怎么回事 这里已经相当清楚,逻辑就是如果你输入的…

Kubernetes KubeVirt 让容器和虚拟机一起工作

在不讨论容器与虚拟机的优缺点的情况下,每个虚拟机或都包含其完整操作系统的实例,并且可以像独立服务器一样运行。相比之下,在容器化环境中,多个容器共享一个操作系统实例,而且绝大多数都是类Linux操作系统。 并非所有…

新型大语言模型的预训练与后训练范式,谷歌的Gemma 2语言模型

前言:大型语言模型(LLMs)的发展历程可以说是非常长,从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初,LLM的训练过程只关注预训练,但后来逐步扩展到了包括预训练和后训练在内的完整…

【解决安全扫描漏洞】---- 检测到目标站点存在 JavaScript 框架库漏洞

1. 漏洞结果 JavaScript 框架或库是一组能轻松生成跨浏览器兼容的 JavaScript 代码的工具和函数。如果网站使用了存在漏洞的 JavaScript 框架或库,攻击者就可以利用此漏洞来劫持用户浏览器,进行挂马、XSS、Cookie劫持等攻击。 1.1 漏洞扫描截图 1.2 具体…

python爬虫案例精讲:爬取豆瓣电影Top250信息

前言 在这篇博客中,我们将学习如何使用Python爬取豆瓣电影Top250的数据。我们将使用requests库来发送HTTP请求,BeautifulSoup库来解析HTML页面,并将数据存储到CSV文件中。这个爬虫将自动获取豆瓣电影Top250页面的信息,包括电影名…

Node.js的url模块与querystring模块

新书速览|Vue.jsNode.js全栈开发实战-CSDN博客 《Vue.jsNode.js全栈开发实战(第2版)(Web前端技术丛书)》(王金柱)【摘要 书评 试读】- 京东图书 (jd.com) 4.3.1 http模块——创建HTTP服务器、客户端 要使用http模块&#xff0…