正态分布原来是指那些受到多种因素(其中一些甚至是说不清的因素)影响,而每个因素都没有明显作用的数据。因此,常常统计学家把正态数据看成“垃圾”数据。所以说是“垃圾”数据,其中一个重要原因是这种数据已经不具备趋势了,统计学家一看到这种数据就明白对它进行趋势的探究是无意义的。
模型的数据一般来说它有趋势,因此不能是正态的,只是模型把数据中的趋势抽取出来后,剩下的东西就是“垃圾”,就是无任何趋势的数据了,也叫残差(residual)。
在时序分析中,波形的数据,当模型把数据中的波形趋势提取出来后,剩下的就是白噪音,这样模型就被认为是构造成功了。白噪音就是我们打开收音机后没有电台广播时的刷刷声,也是呈正态分布的。
国内的统计教育中造成错觉,学生动不动就假设原始数据是正态的。如果是为了探讨趋势,这无异于宣布自己的数据是“垃圾”。当然,对于有些问题正态数据就不是垃圾了,比如做两总体间均值或方差的比较是,数据正态性是有意义的。因此,以上表述中有时用引号括上“垃圾”二字。