ffmpeg介绍与基础知识

ffmpeg是视频和图像处理的工具包，它的下载网址是https://ffmpeg.org/download.html。页面都是英文且下载正确的包的路径笔者找的时候还费点劲，这里记录一下也方便读者。

选中这个Windows下的下午files，选择第一个
在这里插入图片描述
这里有essential和full版本的，大家根据需要自行选择版本包下载

下载好之后，在官网上下载ffmpeg的full包，一共300+MB
解压，然后安装bin到环境变量中以便cmd中(windoows系统下)命令行的使用
下面将视频提取为一幅一幅的图片
使用如下命令提取格式为png的图片

ffmpeg.exe -i "The godfather (1972) clip.mp4" -vf fps=10 %03d.png

具体的ffmpeg命令格式与定义可以直接在本站搜索定义，这里也给出网址ffmpeg命令
生成的图片会保存在分解的视频目录下。

IPB三种帧是视频压缩中的重要概念，这里找到了学习资料，提供给大家参考I.P.B帧

对提取到的图像进行处理

RGB并转化为YUV

首先要导入opencv的包，没有要下载安装一下到IDE中，然后进行RGB矩阵的提取

import cv2
import numpy as np

path = "150.png"
figure = cv2.imread(path)
# 提取出RGB并根据公式转化为YUV
b = figure[:,:,0]
g = figure[:,:,1]
r = figure[:,:,2]

根据RGB转化为YUV的公式，计算出YUV矩阵，共三个通道

y = 0.275 * r + 0.504 * g + 0.098 * b + 16
u = -0.148 * r - 0.291 * g + 0.439 * b + 128
v = 0.439 * r - 0.368 * g - 0.071 * b + 128

对YUV进行DCT变换

DCT变换是傅里叶变换，在图像处理乃至电气领域等都有广泛的应用，在抛去原理的情况下，直接调用函数库就能完成操作了。默认的是进行8*8的图像块为基本单位的DCT变换，代码如下：

y_dct = cv2.dct(y)
u_dct = cv2.dct(u)
v_dct = cv2.dct(v)

作完DCT变换之后，要对中间的结果进行量化操作，以便更好存储，单位范围也更规整
且给出两个量化表进行量化

# 两个量化表
co1 = [[17,18,24,47,99,99,99,99],[18,21,26,66,99,99,99,99],
       [24,26,59,99,99,99,99,99],[47,66,99,99,99,99,99,99],
       [99,99,99,99,99,99,99,99],[99,99,99,99,99,99,99,99],
       [99,99,99,99,99,99,99,99],[99,99,99,99,99,99,99,99]]
co2 = [[16,11,10,16,24,40,51,61],[12,12,14,19,26,58,60,55],
       [14,13,16,24,40,57,69,56],[14,17,22,29,51,87,80,62],
       [18,22,37,56,68,109,103,77],[24,35,55,64,81,104,113,92],
       [49,64,78,87,103,121,120,101],[97,92,95,98,112,100,103,99]]

co1是对应y，而co2是对应u和v的

对每个8*8的图像块进行进行量化操作

y_q = np.zeros((len(y_dct),len(y_dct[0])))
u_q = np.zeros((len(u_dct),len(u_dct[0])))
v_q = np.zeros((len(v_dct),len(v_dct[0])))
for i in range(len(y_dct)):
       for j in range(len(y_dct[0])):
              x = i % 8
              y = j % 8
              y_q[i][j] = int(y_dct[i][j] / co1[x][y])
              u_q[i][j] = int(u_dct[i][j] / co2[x][y])
              v_q[i][j] = int(v_dct[i][j] / co2[x][y])

在完成了图像处理之后，我们还需要将它保存起来，这里就需要用到z字型的编码进行保存
顾名思义，就是将矩阵按z字型来保存元素至一位的数组中。
根据z字型编码排列的规则，对量化完之后的结果矩阵进行编码并输出。Z字型的编码的好处是，相邻的元素之间在物理意义上也是相邻的，这样更能挖掘出规律，同时也能更好适用于算法。
z字型编码的代码笔者写了一个如下（有点繁琐，没有进行优化）：

row,column = len(y_q),len(y_q[0])
print(row,column)
z_y = []
z_u = []
z_v = []
length = column + row
x = y = 0
for i in range(length):
       if i < column:
              if i % 2:     # 奇数，向下走
                     while x <= row-1 and y >= 0:
                            z_y.append(y_q[x][y])
                            z_u.append(u_q[x][y])
                            z_v.append(v_q[x][y])
                            x += 1
                            y -= 1
                     y = 0
                     if x == 368:
                            x -= 1
              else:         # 偶数，向上走
                     while x >= 0 and y <= column-1:
                            z_y.append(y_q[x][y])
                            z_u.append(u_q[x][y])
                            z_v.append(v_q[x][y])
                            x -= 1
                            y += 1
                     x = 0
       else:
              if i % 2:     # 奇数，向下走
                     while x <= row-1 and y <= column-1:
                            z_y.append(y_q[x][y])
                            z_u.append(u_q[x][y])
                            z_v.append(v_q[x][y])
                            x += 1
                            y -= 1
                     x = row - 1
                     y = y + 2
              else:         # 偶数，向上走
                     while x >= 0 and y <= column-1:
                            z_y.append(y_q[x][y])
                            z_u.append(u_q[x][y])
                            z_v.append(v_q[x][y])
                            x -= 1
                            y += 1
                     x += 2
                     y = column - 1