向高手请教统计学问题

liweilovely

我的研究中有一部分是关于分析气候因子对sa含量的影响。我收集了某一年九个地区的气候资料，包括年平均气温、月平均气温、月平均相对湿度、月平均降水量、月平均日照时间、海拔高度、土壤类型七个因素，现在要分析sa含量与这七个因素的相关性，sa的测定是根据果实的成熟期，每年采收两次，第一次在2-3月间，第二次在8-9月间，也就是说sa含量的数据在8-9月一组，2-3月一组两组，请教高手用什么方法可以更好的分析气候因子与sa含量的相关性，或者与这些气候因子具有显著性差异，哪种气候因子是影响sa含量的主要因子。我现在有的统计学软件有spss和国产的dps，哪种更适合更简单。

另外我看了一些文章中，提到了回归分析、灰色关联分析等分析方法，哪种方法更适合分析我的问题。

digestive

地区 P （9）

年平均气温 (TY) (1*9)

月平均气温 (TM) (12*9)

月平均相对湿度 (HM) (12*9)

月平均降水量 (PM) (12*9)

月平均日照时间 (SM) (12*9)

海拔高度 (H) (1*9)

土壤类型 (S) (1*9)

sa含量测定时间（time) (2)

sa含量（Sa) (9*(1+2+2+2+2+1+1)*2 ＝ 198 ) 注意的是：其中全年中的月平均数据，只有2个月（或者是4个月；这儿我统一用2个月）才有相对的Sa值，其它都是缺失值。

目的：

考察何种气候因子与sa含量的相关性？

考察测定时间之间是否有差异性?

如果用混合线型模型（Linear mixed effects)的话，那么这九个地区是对全世界或者全国的抽样调查，测量时间有两次，所以归为random factor，而这其它的七种气候因素(TY,TM,HM,PM,SM,H,S)都是fixed factor；

首先这些气候之间可能有交互性，这毫无疑问，比如TY,TM；PM和SM，所以在模型中也许只需要其中一个。

要是我来分析，我就用R或者SPLUS来完成混合线型模型；

如果用SPLUS的话，HOHO，我分析过程如下：

1）看看各个地区中的Sa1,Sa2随各个气候因素的两个月间的变化情况；

导入数据DATASA (数据为4 columns (p, time, TY,TM,HM,PM,SM,H,S,sa)；

plot(sa ~ time|p)

2) 看看两两之间的interaction变化，

interaction.plot(p, time,Sa);

interaction.plot(p, TM, Sa)

....

3）初步建模

假设 TY与TM有交互性

lme1 = lme(Sa ~ TY + TM + TY*TM + HM + PM + SM + H + S,， data ＝ DATASA, random = ~1|p/time)

诊断模型，summary(lme1); intervals(lme1);

4) 剔除fixed facotors或重新组合再次建模

lme2; lme3

诊断模型，summary(lme2); intervals(lme2);

5) 比较模型

anova(lme1,lme2,lme3)得到最优。

在模型中存在的，就是需要的气候因子；

当然也有可能存在confounder的现象，比如全年气温和月气温，你可以换掉一个，得到不同最优模型，再互相比较得到最后的模型。