空间统计笔记之四（空间关系建模工具集，Modeling Spatial Relationships）

Generate Network Spatial Weights

工具简介

　　该工具会根据网络的连通性来确定要素之间的权重关系，生成一个空间权重矩阵文件（swm）。如在计算两点距离时，如果两点之间的通行存在障碍，就不能用普通的欧几里得距离来计算。

参数介绍

　　Input Feature Class：输入的矢量点类型要素类，这些点之间会基于网络空间关系来确定权重；

　　Unique ID Field：能够唯一标示输入点要素的整形字段；

　　Output Spatial Weights Matrix File：生成的空间权重矩阵文件（.swm格式）；

　　Input Network：输入的网络数据集；

　　Impedance Attribute：阻抗的单位，由网络数据集中指定；

　　Network Options

　　Impedance Cutoff：阻抗的距离；

　　Maximum Number of Neighbors：最多的邻域个数；

　　Barriers：标识障碍的点要素类，如交通事故发生地等阻碍通行的地点；

　　U turn Policy：是否允许调头，包括三个选项：ALLOW UTURNS— 任何地方都允许调头；NO TURNS—不允许调头；ALLOW DEAD ENDS ONLY U— 只有在死胡同处才允许调头；

　　Weight Options

　　Conceptualization of Spatial Relationships：度量空间距离的方式，INVERSE离目标要素越远权重越小；FIX在Impedance Cutoff范围内权重都为1，超过为0；

　　Exponent：对于INVERSE方法，距离的指数；

　　Row Standardization：行标准化一般是在数据存在可能的偏见性的时候采用，一般是由于有偏采样造成的。行标准化后每个要素的权重之和为1。

输出结果

　　该工具输出一个格式为swm的文件，在其他工具中指定空间距离关系时选择GET_SPATIAL_WEIGHTS_FROM_FILE时可以指定，可以使用Convert Spatial Weights Matrix to Table转换为表格查看。

Generate Spatial Weights Matrix

工具简介

　　根据指定的空间距离关系生成swm格式的空间权重矩阵，或由ASCII格式的权重表格文件转换成swm格式。一般来说，创建的权重有两种类型，即二值权重矩阵，非0即1（如采用FIXED DISTANCE,K NEAREST NEIGHBOR）;和不等的权重（如采用INVERSE DISTANCE）swm由于采用了稀疏矩阵的算法，会占用更少的存储空间。

参数介绍

　　Input Feature Class：输入的矢量点类型要素类，这些点之间会基于网络空间关系来确定权重；

　　Unique ID Field：能够唯一标示输入点要素的整形字段；

　　Output Spatial Weights Matrix File：生成的空间权重矩阵文件（.swm格式）；

输出结果

Ordinary Least Squares(OLS)

工具简介

　　线性回归的方法，为指定的一系列自变量和因变量拟合回归方程，从而发现空间要素特征之间的联系。根据自变量的不同，可分为二元线性回归和多元线性回归。如下图所示，对于二元线性回归而言，即为样本中的点（x轴代表自变量值，y轴代表因变量的值）拟合一条尽可能经过大部分点的最佳的直线方程（残差平方和最小），从而利用拟合的回归方程对将来某个时刻或某个位置的要素状态进行估计。

参数介绍

　　Input Feature Class：输入的矢量要素类，属性中包含自变量与因变量；

　　Unique ID Field：为每个要素指定一个能唯一标示的数值型字段；

　　Output Feature Class：输出的要素类中包含回归方程为每个自变量计算的估计值以及残差；

　　Dependent Variable：自变量字段；

　　Explanatory Variable：因变量字段；

　　Coefficient Output Table：输出表格中记录每个自变量的系数；

　　Diagnostic Output Table：诊断表，记录回归方程的一些特征，如AIC，各个统计量的显著性等，根据这些指标可以比较回归方程的优劣。

输出结果

　　输出的要素类中包含输入的每个要素，回归方程为每个要素计算的估计值，残差等。另外也会输出回归方程自变量系数，截距，T统计，BP统计等回归模型的参数。

如何拟合回归方程 ?

拟合回归方程关键在于自变量的选择，一般二元线性回归的情况是比较少的，大多应用是多元线性回归。因此选取几个自变量，哪几个自变量是最要关心的问题，往往需要通过多次尝试才能达到一个好的状态。对于OLS方法，工具会给出下面的结果解析：

判断一个回归方程“足够好”的标准有以下几个方面：

1、自变量的回归系数的正负值（代表正相关与负相关）符合期望，可以看上表中的Coefficient；另外没有冗余的自变量（VIF值较小，均不超过7.5）；

2、自变量的回归系数具有统计显著性，看上表中StdError t-Statistic Porbability和Robust_Pr是否小于0.5（0.5的置信水平下进行验证）；

3、残差服从正态分布（看上表中的Jarque-Bera Statistic零假设是否成立，该统计的零假设为服从正态分布）；

4、残差不具有空间自相关性（可以用Spatial Autocorelation工具对输出结果中的残差进行验证）；

5、具有较接近于1的R Squared值和较小的AIC。

Geographically Weighted Regression

工具简介

　　地理加权是采用局部模型为每个要素建立线性回归方程，来更好地模拟变量在空间上的变化情况。当自变量和因变量在空间上呈现非平稳性的时候，GWR比OLS更适合。

参数介绍

　　Input Feature Class：输入的矢量要素类，属性中包含自变量与因变量；

　　Dependent Field：因变量，数值型字段；

　　Explanatory Field：自变量，字段列表；

　　Out feature class：输出要素类，包含回归方程各个自变量的系数以及残差；

　　Kernel type：定义空间尺度的方法，有FIXED（固定半径法）和ADAPTIVE（可变半径法）；

　　Bandwidth method：空间尺度的计算方法。AICc（最小信息化原则来确定空间范围）；CV（交叉验证来确定空间范围）；BANDWIDTH PARAMETER（指定半径或确定的邻居个数）

　　Distance：当Kernel type指定为FIXED，且Bandwidth method为BANDWIDTH PARAMETER时，指定的距离；

　　Number of neighbors：当Kernel type指定为ADAPTIVE，且Bandwidth method为BANDWIDTH PARAMETER时，指定的邻居个数；

　　Weight field：为每个要素指定一个数值型字段，影响要素的重要程度；

　　Coefficient raster workspace：指定存放输出系数栅格的路径，栅格中存储的是回归方程中为每个自变量计算的系数；

　　Cell size：为上面输出的栅格指定像元大小，默认的像元大小为环境变量中指定的空间范围中较短的边除以250；

　　In prediction locations：指定利用回归方程所要估计的空间位置，该要素类中必须包含回归方程中所有的自变量字段；

　　Prediction explanatory field：指定要估计的自变量列表，该列表中的字段必须和Dependent Field指定的内容和顺序一致；

　　Out prediction feature class：利用回归方程估计后输出的要素类。

输出结果

　　该工具会产生两个要素类，输出的Out feature class会为输入的每个要素为拟合一个回归方程，输出每个自变量的回归系数以及回归方程的截距和残差；Out prediction feature class则是为In prediction locations指定的要估计的每个空间要素为拟合一个回归方程，输出每个自变量的回归系数以及回归方程的截距和残差

GWR or OLS ?

最小二乘法(OLS)仅是对变量“均值”估计,不能反映变量在空间上的非平稳性。采用地理加权回归(GWR)技术引入空间效应,发现GWR模型比OLS模型具有明显优势。GWR能够将数据的空间特性纳入模型中，为每一个要素建立回归方程，因而为反映数据的空间特征创造了条件。例如，要研究犯罪与教育程度之间的关系，会发现每个地区的影响因子是不同的，也就是说在空间上呈现非平稳性，因此采用GWR为每个要素建立起回归方程是必要的。是否呈现空间的非平稳性可参考上表中的Koenker Statistics，其零假设即为在空间上是平稳的。