dreamingb 1、统计推断有一个隐含的前提是总体要远远大于样本容量。这让我联系到了大数定律,当n趋于无穷时,频率会稳定于概率。我便简单的理解为这一说法等价于样本量越大,用频率近似概率越合适。后来,我却发现了推翻这一理解的证据: 假设检验中,用p-值来衡量拒绝原假设的风险。然而很多书中都说,随n增大,犯第一类、第二类错误的概率均减小,当然p是减小的。然而,当n不断增大,抽样分布的标准差递减。这样一来,无论给定的显著性水平多小,原假设总不会被拒绝。(《统计学的世界》中有一例:布方投硬币n=4030,又分别给出了n=1000和n=10000的抽样分布,对于给定的临界值,n=10000的样本所有估计值都没有落在拒绝域。正是这个例子让启发了我)。这表明,当n增至一定程度,p值反而有可能变大,因为估计值会在真值附近摆动,而不是越来越接近。 综上,我觉得对于总体要远远大于样本容量这一前提,原因不仅仅是这种情况下才划算。 这只是自己的想法,不知道有没有偏差的地方,请高人指正。 2、抽样中给出了均方误=方差+偏差平方。也就说明,均方误在无偏时达到最小,等于方差。但是,根据直观判断,均值(或其它参数)抽样分布的方差应该是会小于样本方差的,而且小的不少。这一点,吴喜之的《统计学》中有一关于新娘婚龄的调查,其均方误大致是样本方差的1/3(如果没记错的话,不过可以肯定的是小很多)。这一矛盾,让我想不太明白,希望高人指点迷津! 3、由中心极限定理,大样本的抽样分布不依赖于总体分布,但是为什么假设检验中又要求了正态总体呢?
ilikemath 1,你对总体的理解是什么? 2,你认为MSE=var+bias^2中的variance指的是什么呢? 3,并不是所有的数据都是大样本,关于小样本也有它的一套理论,并不是所有的假设检验都要求正态总体,非正态总体也有一堆理论。
dreamingb [quote]引用第1楼ilikemath于2007-08-28 22:16发表的“”: 1,你对总体的理解是什么? 2,你认为MSE=var+bias^2中的variance指的是什么呢? 3,并不是所有的数据都是大样本,关于小样本也有它的一套理论,并不是所有的假设检验都要求正态总体,非正态总体也有一堆理论。[/quote] 1、总体有目标总体和抽样总体之分,大致可以理解为我们力图调查的对象的全体。对于这个问题,我不觉得是对总体的概念理解不清造成的。 2、var是估计量方差。这个问题暂做保留,我得再看看。 3、诚然!你的这句话没有任何问题,但是现在想讨论的就是大样本的情况。 感谢回复……
dreamingb [quote]引用第2楼ypchen于2007-08-28 22:51发表的“”: 2. MSE=var+bias^2 你会推导吗? 3. 谁说假设检验中要求要正态总体了,数理统计的书上后面有专门几节讲非正态总体的假设检验。假设检验是种思想、方法,跟是否正态总体没关系。[/quote] 很明了,假设检验是种思想——应用小概率原理,你说的也正是我想要得到的答案,但是还是有含糊的地方。 那还说你指出的“概率统计”第八章第二节——正态总体的假设检验。就看t检验了,统计量中没有任何关于正态的迹象(当然,统计量本身就是与总体参数无关的),可是这里却是专属正态总体的假设检验。那么请你明示,为什么对于一个任意的或者非正态总体,这一方法不成立。 希望你能认真回答这个问题,而不是仅指出提问中的不足。 p.s. 当一种思想或思路无法与实际相交,它的意义应被重新评估。
ilikemath 统计中的三大分布都是基于正态分布产生的,如果没有正态的前提,也没有大样本的前提,T统计量就不见得服从T分布了。 在大样本的时候通常做法是考虑统计量的渐近分布,对任意总体,T统计量肯定渐进正态没错,但并不是所有检验方法都构造常规的统计量,比如光是chi-square就有一堆。 出书的人把它写成“正态总体时参数的假设检验”,人家也没有说一定是大样本,也没有说只能在正态下才可以用某个(chi-square)统计量。
dreamingb [quote]引用第8楼ilikemath于2007-08-30 11:49发表的“”: 统计中的三大分布都是基于正态分布产生的,如果没有正态的前提,也没有大样本的前提,T统计量就不见得服从T分布了。 在大样本的时候通常做法是考虑统计量的渐近分布,对任意总体,T统计量肯定渐进正态没错,但并不是所有检验方法都构造常规的统计量,比如光是chi-square就有一堆。 出书的人把它写成“正态总体时参数的假设检验”,人家也没有说一定是大样本,也没有说只能在正态下才可以用某个(chi-square)统计量。[/quote] “t统计量基于正态假定”这起初是当估计总体均值,用样本方差来替代总体方差时产生的说法。而实际t分布是一种独立的分布(t分布是Gosset研究犯人身高和手指长度这两个数据集时建立的),它用于描述其它分布无法描述的数据,并非基于正态总体。只不过,在大样本和中心极限定理的支持下,可以由N推出t分布罢了。
ypchen 我又看了一下你的问题3 觉得这么问没必要 如果真的说是大样本了 正态的假设应该就包含在里面了 而实际运用时 大样本是不存在的吧(我猜的,没有什么依据) 大样本实际上也是个假设 是个和“绝对真理”一样的东西 永远达不到 在数学上就是让样本容量N趋于无穷大 一切分布都趋近于正态分布(也是我的猜测,我没证明) [quote]引用第5楼dreamingb于2007-08-29 16:14发表的“”: 那还说你指出的“概率统计”第八章第二节——正态总体的假设检验。就看t检验了,统计量中没有任何关于正态的迹象(当然,统计量本身就是与总体参数无关的),可是这里却是专属正态总体的假设检验。那么请你明示,为什么对于一个任意的或者非正态总体,这一方法不成立。 希望你能认真回答这个问题,而不是仅指出提问中的不足。 [/quote] 原来是这样啊 看来你不是数学专业的 t检验在我们概率统计的书上是这样的:样本取自正态总体 总体的方差不知道 而构造的统计量服从t分布 这样的检验就是t检验 当样本量趋于无穷大的时候 t分布趋于正态分布 t检验就成了Z检验 以上都是简单描述 如果想知道详细推导过程 请阅读茆诗松的《概率论与数理统计教程》 或者其它数学系数理统计的书
hexm26 "均方误=方差+偏差平方。也就说明,均方误在无偏时达到最小,等于方差。"这个论断是错误的。 事实上,如果牺牲一点无偏,即估计量略微有偏一点,能换来极大的方差减小,MSE会降得更多。所以无偏即不是MSE最小的充分条件,也不是必要条件。最简单的一个例子是正态分布的总体方差估计,其MSE最小的是(sum(x_i-x_bar)^2)/n,而不是它的无偏估计(sum(x_i-x_bar)^2)/(n-1)。理解了这点就很好的解释你的问题了。
rtist Right. Stein's paradox. Actually, shrinkage estimation is a VERY important class of estimation techniques nowadays.
ypchen 第一项和第二项都是变动的 你怎么能说 当第二项为0时MSE最小呢? 茆诗松的《概率论与数理统计教程》P299有个例子: 均匀总体U(0,θ),由θ的最大似然估计得到的无偏估计是 它的均方误差是 而的有偏估计的MSE最小 不知道楼主所说的“理解”是什么意思,有些东西用公式推导就明白了
redlou 无偏估计的提出可能出于数学上和应用上的方便,在早期占据了很重要的地位。 在Bayes学派看来,估计量的好坏只依据实验中得到的观测值,不应该使用尚未 观测的数据,所以在Bayes估计中是不考虑估计的无偏性。