接触R已有一年半了,时间不长,但对它却是相当执着。由于是在中部一所医学院中,统计分析不是SPSS就是SAS,会R软件的人很少。偶然有人听说过R,但也仅仅只是听说。R不是他们统计分析的常用工具,也许下载安装了,但也仅仅只是安装了。庆幸的是,这学期学校开了一门选修课:R软件统计分析。每次到课的人,还可以,至少让人觉得,这个新兴的统计软件在我学校慢慢地扩散开了,也衷心希望越来越多的人懂R,用R。
我研究的方向是环境流行病学,当然,我老板的主流方向是分子生物学,但老板觉得空间统计学在公共卫生领域还是有一定前景,所以,放任我,随便研究,那个时候我表示很惶恐,因为在这块,老板不会给任何建议,一切都只能靠自己去摸索。 由于对空间统计分析感兴趣,同时我这种小硕没有paper的压力,所以,可以肆无忌惮地融入到空间统计分析的浩瀚世界中。(哈哈)
因为接触R,所以才想做空间统计分析。本科做毕设那年,在R的官网上,无意点到了空间统计分析的项目,然后,然后,就对空间统计分析着迷了。当然,由于能力有限,所以,还有很多理论方面的东西没有弄清楚,我只能将自己对空间统计分析的一些心得分享给大家,希望对同行有帮助,也请同行指出文章中的不足,谢谢。
空间统计分析,是针对空间数据进行的统计分析(貌似是废话,哈哈)。凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性,都是数据的空间统计分析的研究内容。对于空间数据,很多人第一感觉会认为带有经纬度的点数据,但这仅仅是空间数据中的一种。只要是由空间属性的数据我们都将其认为是空间数据,比如,河流,山脉等线数据,又或如国家,省域等面数据。当然,空间数据分析和尺度很有关系,也就是景观生态学中的“尺度效应”。我研究的主要是带有经纬度的点数据,所以,对这块可能稍微熟点。所以接下来更多是侧重于点数据的分析,面数据的分析在某些地方不一样,比如空间权重矩阵的建立等。
空间数据有两个特性:空间自相关(空间依赖性)和空间异质性。也就是这两个特性,才衍生了一系列空间统计分析方法。我将从空间自相关,空间插值,常系数空间回归模型,地理加权模型,空间面板模型和时空层次贝叶斯模型进行一一说明。
空间自相关分析,是进行空间统计分析的基础,包括全局空间自相关和局部空间自相关分析,自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点”。暨南大学的硕士毕业论文(基于R语言的空间统计分析研究与应用)很详细地介绍了如何用R进行空间自相关分析(http://ishare.iask.sina.com.cn/f/23642371.html?sudaref=www.sogou.com&retcode=0)。度量全局空间自相关性常用的参数为:Moran’I和Geary’C,当然还有连接数,但没有前2个参数常见,这三个参数都可以在spdep程序包中实现,分布对应的函数为:Moran,geary和joincount.mc; 度量局部空间自相关性常用的参数是:Local Moran’I和Local Geary’C ,其实现函数分别为localmoran和localG函数。通俗地理解,Local Moran’I就是将Moran’I进行分解成若个个区域而得到,这如何分解,这就牵涉到“空间权重矩阵”这个核心概念。地理事物在空间上的此起彼伏和相互影响是通过它们之间的相互联系得以实现的,空间权重矩阵是传载这一作用过程的实现方法。通常定义一个二元对称空间权重矩阵Wn×n来表达n个空间对象的空间邻近关系,可根据邻接标准或距离标准来度量,当然你也可以定义高阶权重矩阵。邻接矩阵常用于面数据,而距离矩阵常用于点数据,当然,也有文献中报告,基于面数据建立距离矩阵的。我个人认为,权重矩阵的选择取决于你所研究的目的。
空间插值是将空间数据外推的基本方法。方法主要是两类,确定性方法和地质统计学方法。确定性方法包括反距离加权平均插值法、趋势面法、样条函数法等;地质统计学方法主要是克里金家族,包括简单克里金、普通克里金、泛克里金、指示克里金等。确定性插值方法的特点是在样本点处的插值结果和原样本点实际值基本一致,若是利用地质统计学方法的话,在样本处的插值结果与样本实测值就不一定一致了,有的相差甚远。在R中,gstat程序包可以进行空间插值,但由于增加指南针等比较麻烦,所以就插值而言,我更加愿意在GIS中进行。关于哪种插值方法较合适,可以对空间插值后的结果进行交叉验证。当然,有用R进行空间插值的朋友,也请交流下心得,谢谢。