rtist
这是一个源于8sta论坛上很早以前一个医生的求助贴的问题。实际问题记不太清了,似乎是因为病例资料保存不善造成的一个麻烦。当时想了好几周,也问了几个导师,虽然不至于完全无从下手,但也没得到一个很理想的分析方案。所以贴出来和大家讨论一下,看看这个东西有没有价值继续研究及如何研究。
假想一个例子来说,如果一门课有两个老师上,学期结束之后每个上课的学生都填写了两张完全一样的教师评价表(表上有教师姓名、没有学生姓名),匿名对授课质量进行评价。再假定每个表最终都计算出了一个教师得分。现在想知道这两个老师的平均分是否有显著差异。问题的难点在于,虽然资料是配对的,但是不知道谁和谁配对,也就是不知道哪两张表是来自同一个学生的。(别告诉我做笔迹鉴定来判断!·#¥…)
以上问题我只想假定学生与学生之间相互独立,如果为了讨论方便,也可以进一步假定正态性及等方差。但是就算这些条件都符合,应该怎么分析最好??
另外一个问题是,你在实际问题中遇到过类似情况么??也就是说,这个问题值不值得花时间去研究??因为一般来说,如果想办法,通常总可以事先避免这个情况发生(比如同一学生的两张表可以订在一起上交),但是那个粗心的医生就没这么幸运了。
yihui
hmmm...是个难题,暂时没有什么好办法
ilikemath
没有什么实际意义,这样的试验在中国社会机制下,出现的可能性很小。如果是为了比较两个对象,首先应该做的就是筛选数据,数据有缺失都没有关系,如果连数据来自哪个总体都不清楚,即使做出比较,这样的结论置信度也很低。
rtist
faint...居然还能联系到“在中国社会机制下”。。。。。
我觉得ilikemath的回答本身就是矛盾的,一方面说数据缺失都没问题,一方面又说什么什么不清楚怎么样——信息不清楚不就是一种数据缺失么?
事实上,我觉得目前我听说过的方案中最合理的就是em了。
yihui
不,ilikemath说的两种“缺失”不一样,前一种是某个变量中缺失了一部分值,后一种是某个变量(用以表示样本来自哪个总体)根本就是未知的。不知道我理解得对不对。
关于这个问题,我想关键在于“配对”,刚才我突然想到,这个“配对”在此究竟对问题的解决有多大阻碍作用,我们知道,对于两个独立样本,可以用简单的t检验来解决Compare Means的问题,这种方法在这里之所以不能用就是因为“配对”对于样本的独立性似乎产生了“破坏”;同一个学生对于两个老师的打分事实上一定就不独立么?我认为不一定。如果学生是从客观角度出发对老师评价,那么他打的两个分数就应该是独立的。这种情况下,用独立样本的t检验也未尝不可,而不必纠缠于“配对样本”上。
我这人一向很懒,在思考问题的时候倾向于往简单的地方想,而不愿深挖数学推理,能简单就别复杂。随时接受大家的西红柿。
rtist
就像finite normal mixture做model-based clustering一样,配对(cluster)信息本身就可以看成缺失数据。
做two-sample t-test不是不行,只是如果一个学生填的两张表正相关,那么仅仅power低了一点;但是如果学生对其中一个老师有偏好,那么他填的两张表就会负相关,two-sample t-test做一类错误概率就会增加,而没有控制在该控制的水平上。
徐启元
那就不要当成配对的来做t检验就是了嘛,当作两组数据的比较。。。
rtist
[quote]引用第6楼徐启元于2007-03-03 14:58发表的“”:
那就不要当成配对的来做t检验就是了嘛,当作两组数据的比较。。。[/quote]
这个网友好是奇怪。。。
刚刚发了一个帖子说方差分析数据不独立怎么办,可是回过头来就说要把明知不独立的东西当成独立的。。。。。
徐启元
哦,对,不独立的,糊涂了。。。多谢指正。。。