这篇文章在补充材料里提到了家庭联系度与归还率负相关,但家庭联系度只是个引子,跟文化关系很大。举个例子,如果前台拿到钱包,在东方文化或有集体主义传统的国家里转上级或送警察局是理所当然的,根本就不会打开看,也就没有后面邮箱联系那些事,因为这属于领导或专家拿主意的,而转交后可能到今天领导专家都没工夫管,钱包被遗弃在角落里至今都是薛定谔的猫态;西方文化更注重个人主义,打开看一下,自己能办就办了,研究设计者应该考虑这种滞后性与习惯差异,这也是跨文化研究必须考虑的。
关于加入变量系数反转,可以看成辛普森悖论的回归分析版本,印象中丁鹏老师因果分析那一系列文章里讨论过,今年 R 语言会议吴喜之老师的大会报告也有部分涉及。这个情况在公卫研究里特别常见,公卫那边是另一个极端,蜜汁相信线性模型并会直接不分青红皂白先控制一大堆变量例如抽烟、年龄、BMI 啥的,但有些其实跟响应变量没有任何关系,无关变量加入后提高了模型整体的方差或噪音,反而把信号给掩盖或扭转了方向。模型选择上必要的探索性分析或描述性分析是必要的,例如这篇论文诚信度用邮件回复率来表示就得控制那些可能直接影响回复率的东西排除干扰,不过性别年龄这些可以考虑用 BIC 来看下影响究竟大不大,有时候逻辑上有联系的东西实际可能没联系或者没找对合适的控制变量反而增加了模型的复杂度。这篇论文的实验设计就很难回答其提出的问题,相当于仅用考研笔试成绩来预测录取结果,虽然有关系,但面试那块的不确定性如果非常大,很有可能得出较低的笔试成绩能获得录取的结论。