Chapter 3. Video Coding Concepts

本章主要介绍一些有关视频编码的概念

时域模型（Temporal Model）

时域模型的作用是去除帧间冗余。如：将第二帧减去第一帧，得到的剩余信息，其能量会远小于第二帧本身。

运动估计：针对于当前帧的M*N大小的块，在参考帧中寻找与它最相近的块（找相减后剩余能量最小的）。
运动补偿：当前帧的块减去参考帧中匹配的块，得到一个剩余块。
运动向量：上述两个块之间的位移。

在多数视频编码标准中（MPEG-1，MPEG-2，MPEG-4 Visual， H.261，H.263，H.264），单帧中的一个16*16（通常的大小）的像素区域被称之为一个宏块。

宏块的编码方式有如下两种：

帧内（intra）编码：比如场景切换的时候，由于邻近帧的内容与当前帧会有较大的差距，因此如果采用残差+运动补偿的编码方式，压缩效率并不会太高，因此直接采用帧内编码。
帧间（inter）编码：即参考邻近帧的相似宏块进行编码，在两帧内容变化不大的情况下能够有效的压缩数据。

如书中第35页配图，在没有运动补偿的情况下，相邻两帧相见的剩余帧依然会有比较多的能量，加上运动补偿后，剩余能量显著降低。此时随着宏块的变小，剩余能量也会不断地下降，但是越小的宏块意味着越复杂的算法复杂度（需要搜索更多的宏块区域）以及更多的运动向量，因此两者之间是一个相互平衡的关系。

在例如H.264等视频标准中，可以采用自适应的宏块大小。

搜索宏块时，如果把搜索的基本单位细化到半像素，甚至四分之一像素，或许可以得到更加精确的结果，但是要表示浮点型的运动向量，则需要更多的数据位数。

因此：更精确的运动补偿需要更多的位数对运动向量进行编码，但由于匹配变得更加精确，因此剩余块的编码所需要的位数会降低；反之，不太精确的运动补偿所需要的位数会减少，但是因为匹配也变得不太精确，所以剩余块的编码所需要的位数会增加。这还是一个在两者之间需要平衡的问题。

通常自然界中的很多物体都不会是矩形，对特定区域内的像素进行运动补偿有时候会有更好的效果，在MPEG-4 Visual中有支持这方面特性的工具。

有DPCM等。

这里列出常见的几种

对图像做DCT变换，得到的DCT洗漱其实对应了不同基底的系数，常见的二维DCT基底在书中48页给出

思想和DCT其实比较类似。二维小波变换将图像变成四个子图像（LL，HL，LH，HH），其中第一个为低频分量，后面三个都是高频分量。

用来压缩数据冗余，例如JPEG中使用的是霍夫曼编码。