［讨论］关于匿名配对数据的分析问题

rtist

这是一个源于8sta论坛上很早以前一个医生的求助贴的问题。实际问题记不太清了，似乎是因为病例资料保存不善造成的一个麻烦。当时想了好几周，也问了几个导师，虽然不至于完全无从下手，但也没得到一个很理想的分析方案。所以贴出来和大家讨论一下，看看这个东西有没有价值继续研究及如何研究。

假想一个例子来说，如果一门课有两个老师上，学期结束之后每个上课的学生都填写了两张完全一样的教师评价表（表上有教师姓名、没有学生姓名），匿名对授课质量进行评价。再假定每个表最终都计算出了一个教师得分。现在想知道这两个老师的平均分是否有显著差异。问题的难点在于，虽然资料是配对的，但是不知道谁和谁配对，也就是不知道哪两张表是来自同一个学生的。（别告诉我做笔迹鉴定来判断！·＃￥…）

以上问题我只想假定学生与学生之间相互独立，如果为了讨论方便，也可以进一步假定正态性及等方差。但是就算这些条件都符合，应该怎么分析最好？？

另外一个问题是，你在实际问题中遇到过类似情况么？？也就是说，这个问题值不值得花时间去研究？？因为一般来说，如果想办法，通常总可以事先避免这个情况发生（比如同一学生的两张表可以订在一起上交），但是那个粗心的医生就没这么幸运了。

yihui

hmmm...是个难题，暂时没有什么好办法

ilikemath

没有什么实际意义，这样的试验在中国社会机制下，出现的可能性很小。如果是为了比较两个对象，首先应该做的就是筛选数据，数据有缺失都没有关系，如果连数据来自哪个总体都不清楚，即使做出比较，这样的结论置信度也很低。

rtist

faint...居然还能联系到“在中国社会机制下”。。。。。

我觉得ilikemath的回答本身就是矛盾的，一方面说数据缺失都没问题，一方面又说什么什么不清楚怎么样——信息不清楚不就是一种数据缺失么？

事实上，我觉得目前我听说过的方案中最合理的就是em了。

yihui

不，ilikemath说的两种“缺失”不一样，前一种是某个变量中缺失了一部分值，后一种是某个变量（用以表示样本来自哪个总体）根本就是未知的。不知道我理解得对不对。

关于这个问题，我想关键在于“配对”，刚才我突然想到，这个“配对”在此究竟对问题的解决有多大阻碍作用，我们知道，对于两个独立样本，可以用简单的t检验来解决Compare Means的问题，这种方法在这里之所以不能用就是因为“配对”对于样本的独立性似乎产生了“破坏”；同一个学生对于两个老师的打分事实上一定就不独立么？我认为不一定。如果学生是从客观角度出发对老师评价，那么他打的两个分数就应该是独立的。这种情况下，用独立样本的t检验也未尝不可，而不必纠缠于“配对样本”上。

我这人一向很懒，在思考问题的时候倾向于往简单的地方想，而不愿深挖数学推理，能简单就别复杂。随时接受大家的西红柿。

rtist

就像finite normal mixture做model-based clustering一样，配对（cluster）信息本身就可以看成缺失数据。

做two-sample t-test不是不行，只是如果一个学生填的两张表正相关，那么仅仅power低了一点；但是如果学生对其中一个老师有偏好，那么他填的两张表就会负相关，two-sample t-test做一类错误概率就会增加，而没有控制在该控制的水平上。

徐启元

那就不要当成配对的来做t检验就是了嘛，当作两组数据的比较。。。

rtist

[quote]引用第6楼徐启元于2007-03-03 14:58发表的“”:

那就不要当成配对的来做t检验就是了嘛，当作两组数据的比较。。。[/quote]

这个网友好是奇怪。。。

刚刚发了一个帖子说方差分析数据不独立怎么办，可是回过头来就说要把明知不独立的东西当成独立的。。。。。

徐启元

哦，对，不独立的，糊涂了。。。多谢指正。。。