前面三篇谈了谈GIS的基础分析方法,我看了一下大家的反馈。有人觉得太简单,有人觉得有启发,但却有人觉得太新鲜甚至不明白,所以这也印证了一个道理:每个人的需求总是不一样。众口虽然难调,我的本意也只是想写点自己感兴趣的东西,但既然花费了心血,还是希望对有心人多点帮助。 第四篇想说说空间分析中的一些复杂话题。 现代科学技术众星璀璨,借助互联网则可以自由的抓取你感兴趣的那一颗。在互联网上热热闹闹被关注的技术中,有一个叫做数据挖掘。而数据挖掘技术中,有一类和数据展现有关系。老美命名了两个词:data visualization和infographic,直译过来就是数据可视化和信息图形,基本的意思都是指将数据、信息或知识的用可视化的形式表现,但data visualization更强调数据表现后面的故事,也就是能通过视觉效果将事物的规律、趋势、发展让人的大脑判读和理解。而地图是这类技术中最重要形式的之一。 地图可以表达空间模式,并通过空间模式回答一些问题。比如,山西省的肺癌患者是怎样分布的?如果他们是聚类分布,那这个聚类的中心在哪儿?是临汾还是太原?再比如,中国西部的地震中心最近50年朝什么方向移动?再比如气候变化对川北和陇南的大熊猫的栖息范围造成什么样的影响?再比如,索马里海盗在哪个椭圆范围活动的概率最大?原因何在?这些问题都和地理因素有关,而且都需要用地图说明答案和结果,GIS就能解决这类问题,这也是GIS与众不同的特征之一。 在ArcGIS中,这类分析叫做空间统计分析,从字面上也不难理解,是通过统计方法实现的,将采集到的样本数据按照某种统计模型进行计算,而发掘数据背后的规律。地统计和其他统计的基础都一样,通过分析事情发生的可能性研究事情结果的真实状况。如下图中的假设,如果临界值Z为5.73,说明该聚类分布为偶然现象的可能性小于1%。统计学就是这么绕嘴,说白一点,就是该空间现象是聚类分布的可能性超过99%。 在这里不多说地统计的知识了,像我这半吊子功夫的人往深里写,让科学家们嘲笑的连鲍鱼都喷出来了,岂不是可惜?将上图中的几个词汇翻译一下,也可以让你回忆起点点高等数据的基础知识。Critical value是“临界值”,用Z表示,significant不是“重要的”是“显著的”,significance是“显著性”,用P表示,Moran’S是空间自相关分析的基本测度,用I表示,Dispersed是离散分布,Random是随机分布(偶然的),Clustered是聚类分布(非偶然的)。其中significance可能是统计学中是最为重要的一个概念,因为统计分析能告诉你的,只是这个观察/测量结果有多可能是偶然的。如果一个结果只有0.1%的可能性是偶然的,那么我们比较有把握相信这个结果反映了真实。一般统计分析的结果是观察到的现象只有小于5%的可能是偶然的,我们就把这个结论叫做“significant”。 ArcGIS的空间统计分析是很有意思的一个工具集,其中很大部分是用python脚本写成,你都可以打开看到分析的源代码并根据自己的分析公式进行修改。虽然这个工具集从ArcView到ArcInfo都有,但很少有人用到,毕竟使用这类工具需要有一定的背景知识、科学的态度和相对详实的观察数据,而做这种工作的人往往是科学家。我们整天讨论的都是做项目,挣政府的钱,完全不需要花时间做这么费功夫的事情。实际上是如果你花时间做了,可能更容易挣到政府的钱吧,难道你没有注意到有些科学家拿到了大把的经费,花都花不完,而成果其实只是用GIS基本工具实现的而已。
ArcGIS空间统计工具集 简单归纳一下,ArcGIS的空间统计分析可以做四种工作: l
度量地理现象的分布,就是研究事件(尤其是点事件)的分布规律,比如沿着某个方向分布,这些现象的中心点等。
l
分析空间分布的模式。主要研究空间自相关程度,聚类的程度。 l
聚类分布制图。可以将聚类的结果用各种好看的地图表现出来,这就是用地图进行数据挖掘的方式之一,通过地图展示空间分析的结论。如下图,可以用聚类的程度用不同的颜色表达,犯罪报警(实际上下图显示的点是赤贫寻求救助电话,绿色的十字是救助站的位置,这都是共产主义国家干的事,在我们天朝没有这项服务,所以不做类比)电话多的地方用红色表示,蓝色表示电话少,可以给我们一个科学的决策依据(这个分析结果还可以用密度图来做,但密度不能反映聚类的情况)。
l
为空间要素的关系建模,这个工具可构建空间权重矩阵或利用回归分析建立空间关系模型,从而考察或量化要素间关系。这类工具实在数学化,搞懂太费劲,核心意思就是构建一个统计数据空间结构。因为空间统计并不意味着将传统(非空间)统计方法应用于恰巧是空间数据(有 x 和 y 坐标)的数据,而是将空间和非空间关系直接整合到数学计算中。 ArcGIS的空间统计工具依据的都是地统计的标准方法,这些方法在一本书中被通俗易懂、特别清晰的介绍,推荐给想做地统计和回归分析的朋友们。这本书是由Andy Mitchell所著的《GIS分析》第二册:空间度量和统计(第一册写的栅格分析:空间模式和关系)。
刚才提到ArcGIS的空间统计分析工具大部分用python写成,打开它们,你可以学会ArcGIS的工程师们是怎么实现这些听起来都头疼的方法的。修改它,然后去发论文。
ArcGIS的modelbuilder早就随着ArcGIS 9的发布而得到使用,现在都到ArcGIS 10了,大家自然更能体会出可视化建模工具对于复杂模型和地理分析的意义。但说到python,可能没有体会那么深,只是觉得多了一个定制ArcGIS的接口而已,其实python的作用不止这么简单,还可以用于将ArcGIS与其他软件系统结合起来。上面除了简述地理统计分析还提到过回归分析,如果细说回归分析那还可以再长篇累牍的论道,但我们也知道ArcGIS做回归分析显然不够擅长,有的是专业回归分析软件,比如R。R也提供了空间回归分析方法和工具,更为重要的是R也具有python的module,将R和ArcGIS通过python“粘合”在一起,将会为空间回归及结果的展现带来更强劲的动力。两者的结合可以有两种方式,贴图如下,不赘述,大家实践中感受其中的不同。
ArcGIS和R通过python交互(连续多次)
R先处理(在R中debug)结果转换为python,再将其导入ArcGIS,一次交互 上文中提到的分析功能没有在Supermap中直接找到,所以不知从何入手研究超图软件这项能力,不做比较。
|