中国人民大学统计学院《主文献研读》博士生课程（2009年春）

COSeditor

https://cos.name/2009/03/ruc-stat-literature-research-course/

fan-997867261

yihui

[未知用户] 谢谢你，有你这样的读者，网站质量会逐步提高的 :mrgreen:

yihui

对于金老师的课程，俺先带头吼一嗓子：

仍然是我课间休息时问的问题，关于验证插补有效性的方法，不知道目前是否有借用交叉验证（cross-validation）的想法？我觉得这是一个很自然想法。在非缺失的数据中，人为“删掉”部分数据，看插补的数值和真实数值的差异有多大。

ruc2010

我想验证插补有效性关键在于插补后得到的估计量的方差是否最小。在通常不知道缺失的真实值的情况下，我们只能通过对比不同插补方法情况下估计量的方差来验证其有效性。
谢所说的用人为制造缺失，然后再通过与真实值比较来验证插补方法的思路是自然合理的，不过其本质最终也需要通过验证插补后的目标估计量方差是否最小，因为插补方法很多取决与缺失机制的假定。在金老师的《缺失数据的统计处理》这本书里后面有些例子就是采用人为制造缺失来验证不同插补方法的有效性的，但最终都要归结为估计量方差的大小来比较。

yihui

我觉得方差（variance）和偏差（bias）都应该是考量插补方法的指标，仅仅是方差小的话，有可能偏差大；插补的麻烦就在于不知道真实值，这种情况下我们可以拿那些真实值作为测试对象，这种情况下更侧重的是偏差。业内是否有这种比较呢？

例：对于n个样本点中的缺失值，现拟定插补方法为“用第1个观测值”插补所有缺失值，这种情况下方差为0，但显然不一定最优。

ruc2010

谢说的很对。方差（variance）和偏差（bias）都应该是考量插补方法的指标。我昨天考虑时过分强调了方差的重要性，而将偏差（bias）扔在了一边。在目前讨论插补结果好坏的标准中，确实是两者兼而有之，实在不好意思！！！
不过你所举的例子是不是理解有偏？即便用方差来衡量，也是要拿插补后的所有完整数据去算方差。如果都用一个插补值，只要这个插补值不和其他所有非确实的数据相同，估计量的方差都应该不是“0”吧？难道我没理解你的意思？

yihui

哦，我理解错了，看来还是得讨论一下才行。我以为是插补值的方差呢，因为有时候插补不一定是一个确定的值，所以对插补值的估计可能不稳定，因而有方差。

你说的是估计量（如均值）的方差，这种情况下如果插补值都是固定常数，那么方差也会倾向于小啊……

ruc2010

从误差角度来讲，方差（variance）和偏差（bias）都是衡量不同插补方法结果好坏的标准。此外还有似然分布、相对偏倚等标准。

从处理缺失的方法来看。传统的缺失数据处理方法，例如加权调整法，插补法这两大类方法更多采用方差、偏差或两者的结合均方误差（MSE）作为衡量标准；而参数似然估计法则更侧重于数据总体分布的角度来衡量插补的好坏。

从具体的应用来看，对于纵向数据和层次数据的缺失进行处理时，需要根据实际应用情况将以上几种标准结合起来作为参考。对于抽样数据的方差估计，从抽样误差的角度，更多的考虑了在处理缺失后，对于得到估计量的方差估计方法讨论（哈哈，这一点正是我上面讨论说关注的，但站的角度偏了，仅适用于考虑抽样误差的情形。）

具体内容论述请参见：金勇进，邵军。《缺失数据的统计处理》。中国统计出版社，2009年1月版。

yihui

谢谢，看来还是得去整一本书回来看啊，不过个人感觉书读得越多心里越没底；寒假我在家看Cook & Swayne的Interactive and Dynamic Graphics for Data Analysis (With R and GGobi)其中有一章讲Missing Values，说MAR和MCAR等机制实际上不容易验证，做了这些缺失机制的假设对于数学公式推导来说确实有很大的便利，但谁来验证缺失机制呢？前面提到的Cook & Swayne的书从图形的角度去检查缺失值与观测值之间的关系，可能是手段之一吧。

ruc2010

对吧，我感觉从某种意义上来说，缺失机制正是为了后面论证不同缺失处理方法及性质所做的理论前提假定，目的当然是为了自圆其说，构成严密的理论体系。

至于验证，有些情况下，实际当中能够根据数据缺失的特征来套用某种缺失机制，但有时候确实很难说清楚属于那种缺失机制。

你看的那本书里作者从图论角度来验证缺失处理的好坏应该很有新意！

齐韬-chesswave

回楼上：MAR, MCAR, 还有MNAR之类可以通过敏感性分析得到区分，用的主要方法是local influrence，并不是所谓的“很难说清楚属于那种缺失机制”。相比MAR和MCAR的区分，其实我们更关心的是MNAR和MAR的区分，以及MNAR中不同类型的区分（如缺失可能与缺失时的当前状态有关、甚至与未来的状态有关等复杂情形）。事实上，已早有学者做出论述及推广。如Geert Verbeke http://perswww.kuleuven.be/geert_verbeke
Linear Mixed Models for Longitudinal Data
这里还有一个Sensitivity Analysis under Linear Mixed-effects Models for Dropout Data (SA.DO.LME)的简单在线分析程序可供参考???
说明了确实可以对缺失类型做出定量的区分。另外，邵军的研究具有很强的参考意义。强烈不同意“邵军教授数学公式推得快，但在计算机时代这个优势可能会变弱”的论述。理论算法始终是计算的灵魂。只不过太多中国教授不愿意写程序就是了。

yihui

[未知用户] 非常感谢齐韬提供的链接！好好学习一下！有功夫也请你给我们更详细介绍一下啊 :mrgreen:

我写的内容可能严重有偏，金老师要表达的意思应该是现在这个时代中计算机对理论推导会有很大帮助，如Bootstrap的盛行很大一部分仍然得益于计算机的发展，现在难以想象Pearson时代的一大群妇女在大房间里手工计算的场景……

ruc2010

谢谢齐韬的指教与提示。我用的是“有时候确实很难说清楚属于那种缺失机制”，请不要把我这句话理解成绝对口吻，我并没有否认关于缺失机制的可验证性。以我目前的涉及，我也没有能力对这些不甚熟悉的内容做出严格的论断。

从目前的缺失机制归纳来看，可以分为六种缺失机制，分别是MCAR、MAR、CDM、NMAR以及这本书中说提出的取决于随机影响缺失（REDM）和取决于前期数据的缺失。你说提供的方法很值得我们进一步学习，特别是针对其中几种机制的验证，我想关于其他机制的验证方法应该也有，而且需要我们进一步深入研究与讨论。

在关于缺失机制的验证以及不同机制下的缺失处理方法这些都值得感兴趣的人们进一步深入研究。

齐韬-chesswave

感谢谢益辉和陶然的回复，希望大家的努力可以为这方面的研究添砖加瓦。要是可以像MIT那样挂一部分报告的视频或音频出来就好了，以进一步提升这个板块的学术性与学习性。

yihui

[未知用户] 这个估计在国内再过20年也未必能实现，很多老师都不愿意把课件放在网上，根本不必说视频和音频了……我们先挣扎着争取一下吧 :-)

dontsay

既然是要鼓励大家了解统计、学统计，就应该做个模范才是！
哎，中国自古以来都是这样，都把自己那点东西揣着捂着，到死了还要带到坟墓里去！

yihui

[未知用户] 这话可能极端了一点，作者和读者都有责任吧，如果所有的读者都懂得尊重知识版权、懂得在自己的工作中向别人致谢，而不是抄了也不吱声，那么原作者们可能会愿意分享他们的工作；国内的科研风气实在太差，连院士都不能“免俗”，让其他人自觉遵守规则恐怕更难。要形成一个真正分享的学术氛围，如我前面所说，看20年后有没有戏吧。

各位看官一起努力。

谢佳斌

路过，原来在讨论缺失机制的检测问题。我来提供几个参考文献：
1.can one assess whether missing data are missing at random in medical studies?
2.a test of missing completely at random for multivariate data with missing values
3.detecting covariates with non-random missing values in a survey of primary education in Madagascar
4.a test of the missing data mechanism for repeated categorical data
5. distinguishing "missing at random" and "missing completely at random
6. a test of missing completely at random for generalised estimating equations with missing data
懒得打字就打了文章标题，都是比较老的参考文献，最早的一篇1988年发表，都可以在JOSTOR下载到。目前SPSS采用的就是“a test of missing completely at random for multivariate data with missing values”一文提出的方法。
曾经想作为博论来做的，后来。。。，黄了：（。
数学功底不错的可以扑腾一下~

Foison-840116

[未知用户] “人为“删掉”部分数据”必须假定为randomly，如果用是这样，即使是缺失75％的数据，也可以恢复。但是如果是fix的，即便是缺失10％，天王老子也没有招。可以参考 Youngjo Lee 2006年以来的研究。