图像处理、分析与机器视觉读书笔记-------第四章图像分析的数据结构

4.1图像数据表示的层次

计算机视觉感知的目的是寻找输入图像和真实世界之间的关系。在输入图像和模型之间，定义了若干层次的视觉信息表示，计算机视觉由如下的设计所组成：中间表示（数据结构）、创建这些中间表示所用的算法和它们之间关系的导入。这些表示可分为四个层次。

第一层，最底层的表示，称为图标图像。由含有原始数据的图像组成，原始数据也就是像素亮度数据的整数矩阵。

第二层的表示是分割图像。图像被分割为可能属于同一物体的区域。

第三层是几何表示，保存2D和3D的图像认识。

第四层的图像数据表示是关系模型。

4.2传统图像数据结构

传统的图像数结构有矩阵、链、图、物体属性表、关系数据库、

4.2.1矩阵

矩阵是低层图像表示的最普通的数据结构，矩阵元素是整型的数值，对应于采样栅格中的相应像素的亮度或其他属性。用矩阵表示的特殊图像有：

二值图像（仅有两个亮度级别的图像）用仅含0和1的矩阵来表示

多光谱图像的信息可以用几个矩阵来表示，每个矩阵含有一个频带的图像。

分层图像数据结构用不同分辨率的矩阵来获得。

4.2.2链

链在计算机视觉中用于描述物体的边界。

4.2.3拓扑数据结构

拓扑数据结构将图像描述成一组元素及其相互关系，这些关系通常用图结构来表示。图G=(V,E)是一个代数结构，由一组结点V={v₁,v₂,...v_n}和一组弧E={e₁,e₂,...,e_n}构成。每条弧e_k代表一对无次序的结点{v_i,v_j}，结点不必有区别。结点的度数等于该结点所具有的弧数。

赋值图是指弧、结点或两者都带有数值的图。

区域邻接图是这类数据结构的一个典型，其中结点对应于区域，相邻的区域用弧连接起来。区域图通常是从区域图创建的，区域图是与原始图像矩阵相同维数的矩阵，其元素是区域的识别标号。

4.2.4关系结构

4.3分层数据结构

为了提高计算速度，我们希望使用并行计算机进行计算

4.3.1金字塔

金字塔属于最简单的分层数据结构。我们区分两种这样的结构，即M型金字塔（矩阵型金字塔）和T型金字塔（树形金字塔）。

M型金字塔是一个图像序列{M_L,M_L-1,...,M₀}，其中M_L是具有与原图像同样的分辨率和元素的图像，M_i-1是M_i降低一半分辨率得到的图像。当创建金字塔时，通常我们只考虑维数是2的幂次的方阵，这时M₀则仅对应于一个像素。

当需要对图像的不同分辨率同时进行处理时，可以采用M型金字塔。分辨率每降低一层，数据量则减少4倍，因而处理速度差不多也提高4倍。

T型金字塔，树状结构。设2^L是原始图像的大小（最高分辨率）。T型金字塔定义为：

1.一个结点集合P={P=(k,i,j)使得级别k[0,L];i,j[0,2^k-1]}

2.一个映射F，定义在金字塔的结点P_k-1,P_k之间，F(k,i,j)=(k-1,idiv2,jdiv2) 其中div表示整数除。

3.一个函数V，将金字塔的结点P映射到Z，其中Z是对应于亮度级别数的所有数的子集合，例如，Z={0，1，2，...,255}.

在T型金字塔中，除了跟（0,0,0）之外的所有结点P_k都有定义。除了叶子结点外，T型金字塔的每个结点都有4个子结点；叶子结点是第L层的结点，对应于图像的单个像素。

T型金字塔单个结点的数值由函数V定义。叶子结点的值就是原始图像在最高分辨率下的图像函数的值（亮度），图像的尺度是2^L-1。树的其他层结点的数值或者是4个子结点的算术平均值，或者是粗采样定义的值。

M型金字塔存储所有图像矩阵需要的像素个数为：，其中N是原始矩阵（最高分辨率的图像）的维数，通常是2的幂2^L

4.3.2四叉树

四叉树是对T型金字塔的改进。除叶子结点外每个结点有4个子结点。与T型金字塔相似，在每个层次图像被分解为4个象限，但无须在所有层次上保留结点。如果父结点有4个具有相同值（如亮度）的子结点，则无须保留这些子结点。

四叉树和金字塔分层表示的主要缺点是他们依赖于物体的位置、方向和相对大小。

有很多产生金字塔的方法，取决于缩影窗口的选择。