ArcGIS教程：生成特征文件、类和聚类分析

　　借助 ArcGIS Spatial Analyst 扩展模块。您能够通过将栅格像元分组到类或聚类中来创建分类。类通常指一个已知类别。比如森林、居民区或水体。而聚类则是依据像元属性的统计信息得到的像元分组。特征是代表类或聚类的像元的子集。特征的统计信息存储在一个特征文件里，此特征文件将用于对位于输入波段交集中的全部像元进行分类。

　　什么是类?

　　一个类相应于一个有意义的位置分组。

比如，森林、水域和小麦高产区都是类。

　　每一个位置均可将值集或值矢量、与每一个变量相应的一个值或输入波段作为特性。每一个位置都可以以点的形式显示在轴与输入波段中的变量相相应的多维属性空间中。此多维属性空间中的点分组被称为聚类。在这样的情况下。因为该聚类引用了一些有意义的对象，因此又可将其视为一个类。

假设两个位置的属性(波段值的矢量)相似，则这两个位置将归属于同一个聚类。

　　假设能够按类的属性值对类进行分隔或区分，则已知类也能够在属性空间中形成聚类。

能够将属性空间中相应于自然聚类的位置解释为地层的自然出现的类。

　　确定用于监督分类的类

　　在监督分类中，您应清楚要将研究地点划分为哪些类，而且在研究地点中存在代表每一个类的样本位置。比如，假设您正在依据卫星影像创建土地利用地图，则能够将该地图划分为例如以下几个类：市区、水域、森林、原野和道路。

这样做的目的是将研究区域内的每一个位置分配给一个已知类。能够确定出的属于一个类的样本位置越多。类中的像元值越相似。所产生的分类结果就会越好。将用于确定已知类位置的实际位置称为训练样本。

　　可在面图层或栅格上识别训练样本。定义训练样本时。能够将现有栅格识别为參考。通常，将栅格中前三个图层的彩色合成显示为背景，并将其作为识别生成训练样本时要圈定区域的參考。

　　在非监督分类过程中创建聚类

　　非监督分类过程的第一步是创建聚类。从统计学观点来看，聚类是数据中的自然产生的分组。

Iso 聚类工具须要输入栅格波段、类数、输出特征文件的名称、迭代次数、小类大小以及对计算聚类所根据的採样点进行提取时參照的时间间隔(将在下文中对最后三个參数进行说明)。

　　此工具会返回一个特征文件，当中包括关于所识别聚类的像元子集的多元统计信息。

计算结果能够确定出像元位置与聚类之间的所属关系、聚类的平均值以及方差协方差矩阵。

此类信息存储在 ASCII 特征文件里。对其余未採样的像元进行聚类和分类处理时，特征文件不可缺少。

　　存储类或聚类统计信息：特征文件

　　特征文件是用于存储感兴趣的每一个类或聚类的多元统计信息的 ASCII 文件。该文件包含每一个类或聚类的平均值、类或聚类中像元的数目以及类或聚类的方差协方差矩阵。

　　能够使用不论什么文本编辑器来显示特征文件。

　　对于不论什么类或聚类，在方差协方差矩阵中从左上角移至右下角的对角线值是与特定输入栅格波段(通过波段矩阵中的行/列交集确定)相相应的变量的方差值。此方差协方差矩阵中的全部其它值都是协方差值。

　　怎样为非监督分类确定聚类

　　在非监督分类过程中创建聚类时使用名为 Iso Cluster 的算法。

isodata 聚类算法的前缀 Iso 代表迭代自组织 (ISO)。这是一种用于运行聚类操作的方法。聚类是通过研究区域内像元的子集计算而来的。全部聚类计算都是针对多元分析属性空间中的像元值运行的。而不基于不论什么空间特征。也就是说，平均值是依据不同输入波段的属性值计算出来的。

而方差值和协方差值则是依据波段内以及两个波段之间的方差计算出来的。

　　下面演示样例使用了 K 均值或 ISO 聚类方法。将使用双波段栅格从理论上阐述此方法。对于输入的全部波段或在 n 维空间中，此方法均有效。为更好地理解 ISO 聚类方法，下文从概念上进行了说明。

　　使用绘制在 x 轴上的第一个波段内的值范围和绘制在 y 轴上的第二个波段内的值范围创建一个空图。
　　绘制一条 45 度的线，然后将其划分成线段，线段数与所指定的类数同样。当中每条线段的中心点即是类的初始平均值。

　　将每一个採样像元绘制在图上，然后确定出该点与 45 度线上的每一个平均中心点之间的距离。在属性空间中，使用勾股定理计算出该距离。
将採样点分配到通过近期平均中心点表示的聚类中。

　　绘制下一个採样点，然后针对全部採样点反复运行上述步骤。

　　上述过程将进行迭代。在进行下一次迭代之前。将依据当前分配到上一次迭代中的聚类的像元位置值计算出各聚类的新平均中心点。
使用各聚类的新平均中心点反复运行前两个步骤。

　　更新平均值。然后反复运行先前的步骤。更新平均值的迭代过程将继续进行。直到达到用户定义的迭代次数。或者直到仅仅有不到百分之二的像元从一个聚类转换到与迭代中的新平均值相关的还有一个聚类中。

　　聚类过程对各波段内的值范围非常敏感。此值范围用于确定计算平均值点和採样点之间的“欧氏”距离时所根据的 x 和 y 轴上的值。要使各波段的属性数大致同样，不管是运行监督分类。还是运行非监督分类。各波段的值范围都应类似。

当一个波段的值范围相对于其它波段较小时，多元空间中的“欧氏”距离可能会过小而导致几个聚类的平均值等于 0。假设不论什么一个聚类的平均值为 0，则终于分类和基于特征文件的不论什么其它多元分析工具都将失败。

理想情况下，应将全部波段归一化到同样的值范围。