sica 最近开始读吴喜之老师的《非参数统计》,在符号秩检验与符号检验优劣关系的讨论时书中这样写道:“在满足对称性与连续性假定的情况下,由于符号秩检验利用到了数值本身大小所包含的信息,所以优于符号检验。”那么什么叫包含的信息多呢?本人有这样的理解: 既然是假设检验,那么终归就是在原假设成立的情况下,测量已经发生事件(观察值)的概率大小,如果概率过小且不能满足既定的概率保证,则否定原假设反之通过检验。 为了讨论方便,假设有这样一个n=6的样本,它来自于N=12的总体,我们提出这样的原假设:总体的中位数为M,我们分别从符号检验和符号秩检验的角度来分析样本数据所表示的事件: 如果从符号检验的角度看,那么我们得到的样本有多少种可能呢?每个样本可能大于或小于M(不考虑等于的情况),那么就有2的6次方种可能,也就是说整个样本空间为2的6次方。如果从秩检验的角度看,得到的样本有多少种可能呢?由于考虑到秩的大小,样本可能的情况会远远大于2的6次方种,即事件的样本空间加大了,这样就可以更为精确地描述样本观测到的数值发生的概率,这样就利于我们做出更精确的判断,即包含的信息加大了。 同时是否可以得到这样的启发?我们在进行假设检验时,努力的方向就是如何更精确的刻画样本观测数据所代表的事件,我们对这个事件刻画地越细微,利用样本数据所包含的信息就越充足。 不知道这样理解是否正确,请您指正
yihui 这几天做数据做得头昏脑涨的,都不愿意想复杂问题了…… 从比较简单的层次来说,符号检验所利用的仅仅是正负关系(不管数据具体大小,只管“两边分”就可以了),而符号秩检验则是进一步利用了数值的大小关系,二者相比,显然后者使用的信息更充分,因此说后者优于前者。 关于你的“样本空间加大有利于更精确描述样本分布”的说法,我还得考虑一下……
micro@ I'm not sure if this is a data mining problem. It might be relevant, but it's better to be discussed in mathematical stat board. [quote]它来自于N=12的总体[/quote] Are you sure the population size is finite and so small??? I'd thought these methods require infinite sample size assumption. But I'm not sure. [quote]也就是说整个样本空间为2的6次方[/quote] I don't think the order of the six individual outcomes is relevant. So the sample space is much less than 2^6. [quote]努力的方向就是如何更精确的刻画样本观测数据所代表的事件[/quote] This is only one side of the picture. The most information you can get from your data is the data points themselves, where the deviance is zero. We also need some kinds of abstraction on these raw data to make better use of them.
laofan 我觉得做假设检验的主要目的是构造一个合适的统计量,如果统计量合适的话,比如t-检验,卡方检验里面就包含了我们所需要的信息,但是如果我们构造不出来合适统计量,可以考虑其渐近性,这样子包含的信息就少了