为什么要编码?这里主要是因为信息有甬余需要压缩,所以会出现各类算法。如果存储原始
数据,那就很大。
举例来说,BMP,压缩算法有 jpg,png 等等。
比如 PCM,压缩的 mp3
H.264 相关
这里我们看一下,关于 H264 的一些概念:
H.264 是国际标准化组织(ISO)和国际电信联盟(ITU)共同提出的继 MPEG4 之后的新一代
数字视频压缩格式。H.264 是 ITU-T 以 H.26x 系列为名称命名的视频编解码技术标准之一。
H.264 是 ITU-T 的 VCEG(视频编码专家组)和 ISO/IEC 的 MPEG(活动图像编码专家组)的联
合视频组(JVT:joint video team)开发的一个数字视频编码标准。该标准最早来自于 ITU-T
的称之为 H.26L 的项目的开发。H.26L 这个名称虽然不太常见,但是一直被使用着。H.264
是 ITU-T 以 H.26x 系列为名称命名的标准之一,AVC 是 ISO/IEC MPEG 一方的称呼。
具有的一些优势:
1.低码率(Low Bit Rate):和 MPEG2 和 MPEG4 ASP 等压缩技术相比,在同等图像质
量下,采用 H.264 技术压缩后的数据量只有 MPEG2 的 1/8,MPEG4 的 1/3。 [1]
2.高质量的图像:H.264 能提供连续、流畅的高质量图像(DVD 质量)。 [1]
3.容错能力强:H.264 提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。
[1]
4.网络适应性强:H.264 提供了网络抽象层(Network Abstraction Layer),使得 H.264
的文件能容易地在不同网络上传输(例如互联网,CDMA,GPRS,WCDMA,CDMA2000
等)。 [1]
H.264 最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H.264 的压缩比
是 MPEG-2 的 2 倍以上,是 MPEG-4 的 1.5~2 倍。举个例子,原始文件的大小如果为 88GB,
采用 MPEG-2 压缩标准压缩后变成 3.5GB,压缩比为 25∶1,而采用 H.264 压缩标准压缩
后变为 879MB,从 88GB 到 879MB,H.264 的压缩比达到惊人的 102∶1。低码率(Low Bit
Rate)对 H.264 的高的压缩比起到了重要的作用,和 MPEG-2 和 MPEG-4 ASP 等压缩技
术相比,H.264 压缩技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是,
H.264 在具有高压缩比的同时还拥有高质量流畅的图像,正因为如此,经过 H.264 压缩的
视频数据,在网络传输过程中所需要的带宽更少,也更加经济。 [1]具体参考这里,不粘贴了:
https://baike.baidu.com/item/H.264/1022230?fromtitle=H264&fromid=7338504&fr=aladdin
我们这里讲一些概念:
在 H.264 定义的结构中,一个视频图像编码后的数据叫做一帧。 一帧是由一个或多个片
(slice)组成的,一个片是由一个或多个宏块(MB)组成的(宏块是 H264 编码的基本单位),
一个宏块是由 16x16 的 yuv 数据组成的。
这里就是帧率,一秒多少帧,也就是有多个画面在一秒出现,默认的叫做 60 帧,现在有 120
帧,电视一般就是 23 帧就够了。
游戏类的默认需要 50-60 帧率,否则会出现卡顿现象。
在视频中,有三类帧,分别是 I 帧,P 帧和 B 帧 ,其中 I 帧就是画面帧。而 B 和 P 帧就是
做的运算,不是全部图像的帧。而 P 帧是参考前面的 I 帧生成,而 B 帧是参考前后的图像帧
生成的。
在视频画面播放过程中,若 I 帧丢失了,则后面的 P 帧也就随着解不出来,就会出现视频画
面黑屏的现象;若 P 帧丢失了,则视频画面会出现花屏、马赛克等现象。
GOP 是一组连续的画面。。GOP 结构一般有两个数字,其中一个是 GOP 的长度(即两个 I
帧之间的 B 帧和 P 帧数),另一个数字为 I 帧和 P 帧之间的间隔距离(即 B 帧数)。在一个
GOP 内 I 帧解码不依赖任何的其它帧,P 帧解码则依赖前面的 I 帧或 P 帧,B 帧解码依赖前
面的 I 帧或 P 帧及其后最近的一个 P 帧。
注意:在码率不变的前提下,GOP 值越大,P、B 帧的数量会越多,平均每个 I、P、B 帧所
占用的字节数就越多,也就更容易获取较好的图像质量;Reference 越大,B 帧的数量越多,
同理也更容易获得较好的图像质量。但是通过提高 GOP 值来提高图像质量是有限度的。H264
编码器在遇到场景切换的情况时,会自动强制插入一个 I 帧,此时实际的 GOP 值被缩短了。
另一方面,在一个 GOP 中,P、B 帧是由 I 帧预测得到的,当 I 帧的图像质量比较差时,会
影响到一个 GOP 中后续 P、B 帧的图像质量,直到下一个 GOP 开始才有可能得以恢复,所
以 GOP 值也不宜设置过大。同时,由于 P、B 帧的复杂度大于 I 帧,所以过多的 P、 B 帧会
影响编码效率,使编码效率降低。另外,过长的 GOP 还会影响 Seek 操作的响应速度,由于
P、B 帧是由前面的 I 或 P 帧预测得到的,所以 Seek 操作需要直接定位,解码某一个 P 或 B
帧时,需要先解码得到本 GOP 内的 I 帧及之前的 N 个预测帧才可以,GOP 值越长,需要解
码的预测帧就越多,seek 响应的时间也越长。
GOP 中的 I 帧又分为普通 I 帧和 IDR 帧,IDR 帧就是 GOP 的第一个 I 帧,这样区分是为了方
便控制编码和解码的流程。 IDR 帧一定是 I 帧,但是 I 帧不一定是 IDR 帧。
IDR 帧因为附带 SPS、PPS 等信息,解码器在收到 IDR 帧时,需要做的工作就是:把所有的 PPS和 SPS 参数进行更新。
可以看出来 IDR 帧的作用是让解码器立刻刷新相关数据信息,避免出现较大的解码错误问
题。
引入 IDR 帧机制是为了解码的重同步,当解码器解码到 IDR 帧时,立即将参考帧队列清空,
将已解码的数据全部输出或抛弃,重新查找参数集,开始一个新的序列。这样,如果前一个
序列出现错误,在这里可以获得重新同步的机会。IDR 帧之后的帧永远不会使用 IDR 帧之前
的数据来解码。
这里记住一点,引入的这些概念,值,信息都是为了解决所谓的纠错,处理数据,编解码
相关。它们引入都是为了解决一类问题。
我们在这里不会细究细节,因为这个要挖就偏离了我们的课程,太过繁琐,这类知识应该是
自行学习,遇到问题解决不了,一起来看。
我的微信 code_gg_boy 随时交流。
最后我们来看下音视频编解码这块,最为经典的一个库,市面大多数音视频软件,底层都是
用的这个库,可以看到它的强大。
这份文档里面,包含了如何编译,以及所用的所有工具,源码,同时提供了一个测试的 AS
工程。
使用 ubuntu 14.04
安装
apt-get install yasm
apt-get install pkg-config
安装 nasm 2.13 ,这个已经下载下来了,直接
./configure
make
sudo make install
然后进入 x264 编译
./build.sh
输出结果在当前目录的 android/armv7-a
然后进入 FFmpeg-n3.4.5,创建 x264 目录,把 android/armv7-a 目录放进去
编译./build.sh
最后说明下这个项目我使用的 api19,也就是 4.4,如果想更换自己的 api 值,修改 build.sh
里面的具体数字就可以了。
同时编译的时候,修改下文档中的 ndk 路径,build.sh 里面的 ndk 路径修改成自己的就可以
了。
编译完成,当前目录的 android 下面就是我们要的结果。
然后使用 android 项目进行处理就是了。
技术的学习关键点
是什么?思路。
而我这里分享一个学习的经典路线,先厘清总框架,找到思路,然后再逐步击破。
这里关于音视频的就是:
总体分为几部分:
1 绘制
2 编解码格式
3 Android 平台的 FFmpeg 开源移植
4 应用场景
概括成一句话就是,视频如果解析出来,视频如何显示画面,声音怎么播放。
然后这里面的
市场机会
在哪里?
1 支持格式扩展
2 特效画面 gpuimage 框架
3 倍速播放
4 格式转化,自动制作工具
5 移植到嵌入式板子
那么我们第二版就来完成这个任务,首先我们先说一个,就是绘制。