在吴喜之老师2014的新书《统计学:基于R的应用》中第67页,有这样一道题:
2. 一项颇具中国特色的很时髦的统计实践是用31个省、市、自治区的宏观数据做回归或其他分析。
(1)这31个省、市、自治区的数据(比如GDP)是样本吗?
(2)如果(1)的回答为“是”,那么什么是总体?个体是什么?
(3)如果(1)的回答为“不是”,那么它是什么?
……
这个问题也是一直是我困惑的问题。总体与样本的关系当然是相互的,随着关注的视野范围和思维方式不同,某一个样本可以成为总体。但就这一情境而言,我倾向于认为:
(1)不是样本,是总体。
但是这样就会遇到一个很困惑的问题,那么多些统计模型似乎就没有必要了——因为使用模型的目的,就是在于总体的情形未知的情况下,基于数据(理论上是随机数据)来做一些回归分析或其他分析,进而做出统计推断。现在总体的GDP之类的情况已经明明白白地摆在自己面前,为什么还要做这些分析呢?为什么这样的分析还能发表出那么多的文章呢?
但是有时也想,自然界的许多测量,如气象、水文资料,得到不同年份的数据后,研究者也似乎将其看成一种随机数据,然后进行各种分析。这里似乎可以假想:这些具体年份的数据是来自假想无限总体(无限长的年份序列会产生无限长的相关数据,这些数据就构成了总体)的随机样本。似乎也无太多不妥。然而经济现象和数据,似乎很能想象成是“无限总体”中的某一个序列。到底怎么解释这些数据的“随机性”呢?全国的GDP数据之类的数据,究竟该看成总体还是样本呢?还是不太明白,请各位赐教!