redlou
在经典的统计框架里,估计理论和假设检验理论是统计推断的两大块内容。任何统计学的分支,如纵向数据分析,非线性回归,时间序列分析等,都要讨论关于参数的估计和检验问题。大致上,估计理论得益于Fisher的贡献,而假设检验得益于Neyman&Pearson. 大体的框架在二战前后已经建立完毕,后续的工作是将其扩展成各个新的同一级分支,如spatial analysis。在严格的数学假设下,如参数,分布,模型等,可以得到一些很漂亮的小样本结果(如 t 分布),以及很多大样本的结果(相合性,渐近正态性等)。
预测在普通的教科书上似乎很少被提及,当然在回归和时间序列里会讨论。直观上来讲,还很难与估计&检验相提并论。不言而喻,预测是很有应用价值,在一定意义上,估计 检验 判别都可以看作是预测。然而,就是这么一个领域,现在已成为 data mining and machine learning的中心问题。很多著名的算法都是用来做预测的。例如,早期的神经网络,投影追踪,现在的 支持向量机(SVM),Boosting,random forest 等。随着近一二十年,学习理论的兴起和发展,在预测方面上体现很强的能力,给统计学家带来了极大的挑战。伯克利大学著名统计学家 Breiman就指出,如果统计学界再不重视预测问题的话,很可能将来统计分析被数据挖掘所代替。于是,统计学者开始关心预测问题,逐渐形成了一个新名词- statistical learning。主要是以斯坦福大学的一批统计学家为代表。 其发展很大的拓宽了统计的研究领域,也增强了统计自身的竞争力。
事实上,二者的侧重点来时有很大的不同。估计&检验主要探索变量之间的关联,用来分析,解释自然界的各种随机现象。换句话说,就是要认识一个黑盒子里的本质。而预测就只关心对未来某个事件的猜测是否精确,用于做各种决策。它不关心黑盒子里是什么样构造,只关心用已知数据训练的机器(machine)在将来好不好用。不同的学科对二者有着不同的偏好。在很多自然科学,如物理,生物,大家更喜欢前者。在很多工程领域,如信号处理,金融风险,预测占主流地位。值得一提的是,现在的统计学已经吸收了大量的学习理论的思想方法,很多分支成为现在的研究热点,如 高维数据分析,图模型推断,独立成分分析,小波分析等。