哎,我又要发表devil's advocate了。
传统统计学绝不会把回归作为探究问题原因的手段,因为在统计学中问题可能的原因都是已知的,所以更倾向于用已知的东西去预测未知的东西;
这句话有点外行了。为什么绝不会?首先,这句话就太绝对了,似乎文献中所有的回归分析都是为了预测一样,那么AIC,BIC,HYPOTHESIS TESTING就都失去意义了,所有的模型直接用PRESS一类的指标就可以了。其次,还是回到它本身,回归分析最精髓的就是 identify and estimate different variance sources,这就是探究问题原因了,而预测往往只是附带的一个byproduct。
举例而言,R^2可以算是衡量预测的一个指标了吧。但是各个领域对R^2什么时候make sense说法不一,对于工业统计而言,R^2没有0.8,你都不好意思说你的模型useful,但是在social science,R^2达到0.3就已经不错了,达到0。8?那肯定是你模型搞错了。那么,0.3的R^2说明了啥?说明预测并非那么重要的。另外,说明精确的预测根本是不可能的。为什么呢?因为我们认知有限,很多变量在主宰这个系统,我们却不能发现,或者,即使我们能发现,由于技术手段,能测量到的又太少。
再深入看去,从回归分析到multilevel regression, 这里variance sources就有多个层次了,这个时候,它作为一个探究问题原因的手段的特征愈发明显-- 比如,各个variance sources相对分布如何?到底是哪个variance source 主导了整个系统?
一句话可以概括传统统计,那就是 -- identify the variance sources, estimate it, test it.这个思路对大部分传统统计方法是适用的。而计量经济学(根据我令人汗颜的相关经验),只是它的一个分支,或者说,只是它在一个具体系统上的一个子集。与统计学在其他分支上的发展一样,比如social science, manufacturing, education, environment, geostatistics 一样,统计学在这些具体的子集上就有一个历史任务,那就是整合这个系统的domain knowledge与统计学的各个工具,而达到研究这个系统的目的。这就造成各个统计学科偏好的工具不一样,multilevel regression/hierarchical regression for social science, education, environment, design of experiment and response surface analysis, quality control for manufacturing, structure equation modeling for education, gaussian process or kright model, random field theory for geostatistics, seemingly unrelated regression and reduced rank regression and simultaneous regression for econmetrics。 它们形态上各不相同,但是却共享一个共同的本质特点 -- fighting with a specific variance type/structure ...发现variance source,估计它,解剖它,从而控制它,改进它,而预测仅仅是其次的。