常见的地理分析模型
一 空间统计模型:
相关分析模型: GIS地理数据库中存储的各种自然和人文地理要素(现象)的数据并不是孤立的,它们相互影响、相互制约,彼此之间存在着一定的联系。相关分析模型就是用来分析研究各种地理要素数据之间相互关系的一种有效手段。
地理数据库中各种地理要素数据之间的相关关系,通常可以分为参数相关和非参数相关两大类。其中,参数相关又可分为简单(两要素)线性相关,多要素间的相关模型,非参数相关可以分为顺序(等级)相关和二元分类相关。
趋势面分析模型(主要是回归模型):
一元回归模型: 我们用多项式方程作为一元回归的基本模型:
Y=a0+a1x+a2x2+a3x3+……amxm+ε
式中:Y为因变量,X为自变量,a0,a1,…,am为回归系数,ε为剩余误差
多元线性回归模型 多元线性回归模型表示一种地理现象与另外多种地理现象的依存关系,这时另外多种
地理现象共同对一种地理现象产生影响,作为影响其分布与发展的重要因素。
设变量Y与变量X1,X2,…,Xm存在着线性回归关系,它的n个样本观测值为Yj,Xj1,Xj2,…Xjm
(j=1,2,n),于是多元线性回归的数学模型可以写为:
可采用最小二乘法对上式中的待估回归系数β0,β1,…,βm进行估计,求得β值后,即可利用多元线性回归模型进行预测了。
聚类模型:聚类分析是根据多种地学要素对地理实体进行划分类别的方法,对不同的要素划分类别往往反映不同目标的等级序列,如土地分等定级、水土流失强度分级等。
聚类分析的步骤一般是根据实体间的相似程度,逐步合并若干类别,其相似程度由距离或相似系数定义。进行类别合并的准则是使得类间差异最大,而类内差异最小。
最短距离聚类模型 最短距离聚类模型中,定义两类之间的距离用两类间最近样本的距离来表示。用dij表示样本和样本之间的距离,用G1,G2,…表示类,类Gp和类Gq的距离用Dpq表示,则有:
具体步骤如下:
1、规定样本间的距离,计算样本两两距离的对称表,记作D0,由于每一个样本自成一类,显然Dpq=dpq
。
2、选择D(0)中的最小元素,设为Dpq,则Gp与G0合并成一个新类,记为
Gγ={Gp,Gq}。
3、计算新类与其它类的距离
将D(0)中的p、q行和p、q列删去,加上第γ行、γ列,得到的矩阵记作D(1)。
4、对D(1)重复D(0)的两步得D(2),如此继续下去,直到所有元素成为一类为止。
如果某一步D(k)中的最小元素不止一个,则对应这些最小元素的类可以同时合并。
模糊聚类模型 设有m个变量,每个变量有n个样本,其数据矩阵为:
X=(Xij)n×m
对n个样本进行模糊聚类的步骤如下:
1、统计指标的数据标准化
可采用标准差标准化公式,也可采用极差标准化公式。若采用前者,则计算结果尚需压缩到[0,1]区间;若采用后者,则计算结果已压缩到[0,1]区间。
2、标定
计算出衡量样本(被分类对象)间相似性程度的统计量γij,建立论域U={u1,u2,…,un}上的相关关系
,μR=(ui,uj)表示ui与uj按分类特性的相似性程度,
可用相似矩
阵R表示。γij可以计算得出,也可采取专家评分的方式给出。
3、将模糊关系矩阵改造成模糊等价关系矩阵 →R*
采用求传递背包的方法:
即
4、聚类
模糊等价关系矩阵R*的元素表示被分类对象彼此之间的相似程度,把R*的元素从大到小排列作为规定的λ水平值(0≤λ≤1),使
利用求得的模糊等价关系的λ水平截集进行分类,分类由粗到细。选R*元素的最小值为λ值,则分为一类;选第二个最小值为λ值分为两类;选第K个最小值为λ值就分为K类;……。若λ=1,则各个样本自成一类。
模糊多元统计分析模型
设研究对象为Y,与Y有关的m个自变量为Xj=(X1j,X2j,…,Xmj),j=1,2,…,n,n为样本数。其线性模型为:
Yj=b0X0+b1X1j+…+bmXmj+ej, X0恒取1
写成矩阵形式为:
Y=XB+E
对上式求B的最小二乘估计,得:
将 代入上述线性模型的矩阵形式,得Y的估计值Y=X 。于是构成隶属函数:
线性型:
Logiatic型:
式中的a,c,在使μy ∈[0,1]的前提下经验地确定。给定阈限水平λi。如果分三类,则给定λ1,λ2:
第一类满足:{Y/μy≥λ1}
第二类满足:{Y/λ1>μy≥λ2}
第三类满足:{Y/μy<λ2}
从而实现对自变量的分类。
具体算法如下:
1、选定自变量和因变量,获取原始数据;
2、对原始数据进行标准化处理(采用极差标准化公式或标准差标准化公式):
3、求解线性模型系数的最小二乘估计,得线性回归方程;
4、构造多元隶属函数;
5、分类,即给定阈限水平λi,得到所需分类。
二 地理统计分析模型:
它是以区域化变量为基础,借助变异函数,研究既具有随机性又具有结构性,或空间相关性和依赖性的自然现象的一门科学。凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性时,皆可应用地统计学的理论与方法。应用如:降水量,高程点,人口数量等方面;如下图
IDW分析模型:
IDW插值法是基于相近相似的原理:即两个物体离得近,他们的性质就越相似,反之,离得越远相似性越小。他以插值点和样本点间的距离为权重进行加权平均,离插值点越近的样本点赋予的权重值就越大。
Kringing模型 克里金法则是以自相关性为基础;利用原始数据和半方差函数的结构性,对区域化变量的位置采样点进行无偏估计的插值方法。
…………
…………
(其他略) 三 空间分析模型:
空间分析模型分为以下几种类型:
空间分布分析模型
用于研究地理对象的空间分布特征。主要包括:空间分布参数的描述,如分布密度和均值、分布中心、离散度等;空间分布检验,以确定分布类型;空间聚类分析,反映分布的多中心特征并确定这些中心;趋势面分析,反映现象的空间分布趋势;空间聚合与分解,反映空间对比与趋势。
空间关系分析模型
用于研究基于地理对象的位置和属性特征的空间物体之间的关系。包括距离、方向、连通和拓扑等四种空间关系。其中,拓扑关系是研究得较多的关系;距离是内容最丰富的一种关系;连通用于描述基于视线的空间物体之间的通视性;方向反映物体的方位。
空间相关分析模型
用于研究物体位置和属性集成下的关系,尤其是物体群(类)之间的关系。在这方面,目前研究得最多的是空间统计学范畴的问题。统计上的空间相关、覆盖分析就是考虑物体类之间相关关系的分析。
预测、评价与决策模型
用于研究地理对象的动态发展,根据过去和现在推断未来,根据已知推测未知,运用科学知识和手段来估计地理对象的未来发展趋势,并作出判断与评价,形成决策方案,用以指导行动,以获得尽可能好的实践效果。
常用举例:
缓冲区分析模型:缓冲区分析是GIS的基本空间操作功能之一。例如,某地区有危险品仓库,要分析一旦仓库爆炸所涉及的范围,这就需要进行点缓冲区分析;如果要分析因道路拓宽而需拆除的建筑物和需搬迁的居民,则需进行线缓冲区分析;而在对野生动物栖息地的评价中,动物的活动区域往往是在距它们生存所需的水源或栖息地一定距离的范围内,为此可用面缓冲区进行分析,等等。
在建立缓冲区时,缓冲区的宽度并不一定是相同的,可以根据要素的不同属性特征,规定不同的缓冲区宽度,以形成可变宽度的缓冲区。例如,沿河流绘出的环境敏感区的宽度应根据河流的类型而定。这样就可根据河流属性表,确定不同类型的河流所对应的缓冲区宽度,以产生所需的缓冲区
缓冲区包括:矢量数据的缓冲区,栅格数据的缓冲区模型;
叠置分析模型: 叠置分析是地理信息系统最常用的提取空间隐含信息的手段之一,它将有关主题层组成的数据层面,进行叠加产生一个新数据层面的操作,其结果综合了原来两层或多层要素
所具有的属性。根据GIS数据结构的不同,分为下列两类叠置分析方法。
1.基于矢量数据的叠置分析
叠置分析是将同一地区的两组或两组以上的要素进行叠置,产生新的特征的分析方法。叠置的直观概念就是将两幅或多幅地图重迭在一起,产生新多边形和新多边形范围内的属性。(矢量数据的叠置分析图示)
(一)、矢量数据叠置的内容
1、点与多边形的叠置
点与多边形的叠置是确定一幅图(或数据层)上的点落在另一幅图(或数据层)的哪个多边形中,这样就可给相应的点增加新的属性内容。
2、线与多边形的叠置
线与多边形的叠置是把一幅图(或一个数据层)中的多边形的特征加到另一幅图(或另一个数据层)的线上。
3、多边形与多边形的叠置
多边形与多边形的叠置是指不同图幅或不同图层多边形要素之间的叠置,通常分为合成叠置和统计叠置。(参见多边形与多边形叠置算法)
(二)、多边形叠置的位置误差
进行多边形叠置的往往是不同类型的地图,甚至是不同比例尺的地图,因此,同一条边界的数据往往不同,这时在叠置时就会产生一系列无意义的多边形。而且边界位置越精确,越容易产生无意义多边形(无意义多边形图示)。
2、基于栅格数据的叠置分析
(一)、单层栅格数据的分析
1、布尔逻辑运算
栅格数据可以按其属性数据的布尔逻辑运算来检索,即这是一个逻辑选择的过程。布尔逻辑为AND、OR、XOR、NOT。布尔逻辑运算可以组合更多的属性作为检索条件,例如加上面积和形状等条件,以进行更复杂的逻辑选择运算。(布尔运算示意图)
2、重分类
重分类是将属性数据的类别合并或转换成新类。即对原来数据中的多种属性类型,按照一定的原则进行重新分类,以利于分析。在多数情况下,重分类都是将复杂的类型合并成简单的类型。(重分类例图)
3、滤波运算
对栅格数据的滤波运算是指通过一移动的窗口(如3×3的象元),对整个栅格数据进行过滤处理,使窗口最的象元的新值定义为窗口中象元值的加权平均值。栅格数据的滤波运算可以将破碎的地物合并和光滑化,以显示总的状态和趋势,也可以通过边缘增强和提取,获取区域的边界。
4、特征参数计算
对栅格数据可计算区域的周长、面积、重心等,以及线的长度、点的坐标等。在栅数数据上量算面积有其独特的方便之处,只要对栅格进行计数,再乘以栅格的单位面积即可。(特征参数计算例图)
5、相似运算
相似运算是指按某种相似性度量来搜索与给定物体相似的其它物体的运算。
(二)、多层栅格数据的叠置分析
叠置分析是指将不同图幅或不同数据层的栅格数据叠置在一起,在叠置地图的相应位置上产生新的属性的分析方法。新属性值的计算可由下式表示:
U=f(A,B,C,……)其中,A,B,C等表示第一、二、三等各层上的确定的属性值,f函数取决于叠置的要求。
多幅图叠置后的新属性可由原属性值的简单的加、减、乘、除、乘方等计算出,也可以取原属性值的平均值、最大值、最小值、或原属性值之间逻辑运算的结果等,甚至可以由更复杂的方法计算出,如新属性的值不仅与对应的原属性值相关,而且与原属性值所在的区域的长度、面积、形状等特性相关。
栅格叠置的作用包括一下几种:
1、类型叠置:即通过叠置获取新的类型。如土壤图与植被图叠置,以分析土壤与植被
的关系。
2、数量统计:即计算某一区域内的类型和面积。如行政区划图和土壤类型图叠图,可计算出某一行政区划中的土壤类型数,以及各种类型土壤的面积。
3、动态分析:即通过对同一地区、相同属性、不同时间的栅格数据的叠置,分析由时间引起的变化。
4、益本分析:即通过对属性和空间的分析,计算成本、价值等。
5、几何提取:即通过与所需提取的范围的叠置运算,快速地进行范围内信息的提取。
在进行栅格叠置的具体运算时,可以直接在未压缩的栅格矩阵上进行,也可在压缩编码(如游程编码、四叉树编码)后的栅格数据上进行。它们之间的差别主要在于算法的复杂性、算法的速度、所占用的计算机内存等。
领域统计模型:主要用于某一空间现象需要开辟一定的窗口,这一窗口就是一定的邻
域,一般用在,坡度分析,峰值点的提取等
栅格单元统计模型:主要用于对聚类栅格数据量进行统计等 如:均值,最值,标准差,
方差等
区域统计模型:主要用于对某一区域的要素进行归类分析,通常和叠置模型结合使用 数字高程模型:数字高程模型(Digital Elevation Models, DEM)主要用于描述地面
起伏状况,可以用于各种地形信息提取,如坡度、坡向等,并进行可视化分析等应用分析。
DEM在土木工程设计、军事指挥等众多领域被广泛使用。
距离量算模型:主要有点点,点线,点面,线线 线面等距离
四:网络分析模型
对地理网络(如交通网络)、城市基础设施网络(如各种网线、电力线、电话线、供排水管线等)进行地理分析和模型化,是GIS中网络分析功能的主要目的。
路径分析
GIS中的路径分析包含了最短路径分析、最小生成树、最小费用最大流等问题:
(一)、最短路径分析
在最短路径选择中,两点之间的距离可以定义为实际的距离,也可定义为两点间的时间、运费、流量等,可定义为使用这条边所需付出的代价。因此,可以对不同的专题内容进行最短路径分析。下面介绍的最短路径搜索的算法是狄克斯特拉(Dijkstra)在1959年提出的,被公认为是最好的算法之一。它的基本思想是:把图的一了页顶点分为S,T两类,若起始点u到某顶点x的最短通路己求出,则将x归入S,其余归入T,开始时S中只有u,随着程序运行,T的元素逐个转入S, 直到目标顶点v转入后结束。
(二)、最小生成树
生成树是图的极小连通子图。一个连通的赋权图G可能有很多的生成树。设T为图G的一个生成树,若把T中各边的权数相加,则这个和数称为生成树T的权数。在G的所有
生成树中,权数最小的生成树称为G的最小生成树。
在实际应用中,常有类似在n个城市间建立通信线路这样的问题。这可用图来表示,图的顶点表示城市,边表示两城市间的线路,边上所赋的权值表示代价。对n个顶点的图可以建立许多生成树,每一棵树可以是一个通信网。若要使通信网的造价最低,就需要构造图的最小生成树。
最小费用最大流
在地理网络中进行着物质和能量的流动,形成各种各样的流。
设有一个水管网络,只有一个进水口和一个出水口。每个管道用其截面积作为权数,用于反映单位时间内可能通过的最大流量(称为容量)。有稳定水流注入进水口,经过网络从出水口流出。这样的一个稳定的流动称为“流”,具有如下性质:
1)流是有向的。
2)管道的流量不可能超过最大流量。
3)每个内部节点处流入和流出节点的流量相等。
4)进水口的流量等于出水口的流量。
最大流问题讨论的是,在一个地理网络中怎样安排网上的流,使从发点到收点的流量最大。在实际应用中,不仅要考虑使网络上的流量最大,而且要使运送流的费用或代价最小。这就是最小费用最大流量问题。
选址分析 五:数据的压缩模型
矢量数据的压缩模型 道格拉斯——普克算法,垂距法,光栏法等
栅格数据的压缩模型 游程长度编码法,线性四叉树模型