为什么文献中有些明显的偏态分布会按照正态分布处理？

caizb

参考柳叶刀上的一篇文献（原文），其中有项结局指标叫综合并发症指数（CCI），是所有并发症严重程度分值的累计，数值在0到100之间。因为多数的患者是没有需要干预的并发症的，而且越严重的并发症越少出现，所以CCI值是集中在0附近且大于等于0的，下面的提琴图能看到它的典型分布：
CCI
文献中的CCI值是按照正态分布用t检验处理的，我发现其他文献中的这个指标也是按照正态分布处理，但不论用shapiro.test，还是看分布的形状，它都是一个明显的偏态分布，不知我的理解哪里有误？

yufree

t检验的默认分布是小样本的t分布而不是正态分布，确实原始数据这两个分布都不符合，所以t检验这里用的并不恰当，应该换成非参检验。

不过，换成非参检验后结论可能变了。如果论文给出这个分布或原始数据，那说明他们意识到这个问题，t检验结论对有差异的结论既不充分也不必要，但他们没找到合适的统计工具。如果没给出分布，那基于t检验的结论并不可靠，他们有可能为了讲故事“选”了合适的统计方法或遵循了某种同行惯例。

现实论文里这种分析方法假设跟真实数据不符合的情况很常见，但你不能指望研究人员为每一种特殊分布去设计一个“合理”的统计量，大部份人会去找个近似的或别人用过的统计推断方法来进行推理，但这事是不是对的需要审稿人与读者去把握。论文发表只代表过了同行评议，既不说明内容是对的，也不说明结论是不可推翻的，只是表达一种当前的部分学术共识。统计学只是论证的工具，论的好不好对不对要看业内共识，而很多业内共识并无道理，外学科看像笑话，所以业内就学会了发明一套自己的术语来隔离外行评论，然后大家就都成了砖家。

caizb

yufree 感谢。我在处理数据过程中发现，如果按照shapiro.test，那么像身高、体重、一些血液指标这些通常呈现比较好的钟形分布的数据也都不符合正态分布。我的目标是定性判断两组独立数据是否有统计学差异，我用t检验和秩和检验分别处理这些数据，结果差异不大，并不影响结论。所以我理解是shapiro.test对于医学这种半定量的领域过于严格（？），应该可以近似的粗略使用。
但是像我问题中的这种分布如果还“故意”使用t检验，就不是粗略而是粗暴了，有点不愿相信 😅 。是否还有其他可能？

tctcab

caizb

以我个人的经验来说乱用统计方法真挺常见的…

Liechi

caizb

t 检验一般用于小样本且总体方差未知的情形。样本量足够大的话，直接用适合正态的检验或者非参检验都可以，效能相差不大。非参要稳妥点，如果总体分布偏离正态太远的话。
Shapiro 检验数据是否取自正态总体，数据本身不一定需要看起来正态。只不过做分布检验，样本量小时，shapiro 等检验不是很有效，样本量大时又过于敏感，尴尬。所以根据这类检验来选择是否用参数检验这件事本身就自带玄学气质，手里握着一个大小合适的样本量比什么都强。
实际工作中，基本没有数据符合正态分布，重要的是偏离了多远。另，各类检验对数据偏离正态的敏感度也不一样。做合理判断并不容易，瞎猜一个也没准儿能行，于是文章里用什么的都有，看各人胆子。

总的说来，样本量大的话，走非参就好；如果样本量小，总体信息未知，那就自求多福了，做个分布检验对后续分析没什么帮助。

yufree

caizb 正好最近看到个相关案例，添油加醋版就是有个大夫发了篇新冠论文，然后也被报道了，但却没有给原始数据与代码，然后很多搞数据发现论文本身有很多问题，然后这个大夫脸上挂不住了，就说他不喜欢“众筹式同行评议”，疲于应付啥的。说白了传统同行评议你只需要说服两三个审稿人（其中还有可能碰到朋友），但论文一上网会有更严酷的检验，然后作者就玻璃心了，说不够正规啥的。但科研这玩意跟正不正规没啥关系，就看你数据是否支持结论，如果读者无法被说服，那不论发表的刊物是什么都没啥科学价值。

传统同行评议的问题就在于在发表前把关，但把关质量真的是一言难尽，只要很好的期刊才会有人认真写评论指出问题，一般期刊发表了也就结束了，既不会有人读，也不会有人引用。即便是专业顶刊，里面发表的文章也是马太效应严重，少数高影响力文章跟多数低影响力或无影响力文章或水文。但很多评价体制是跟期刊挂钩的，所以你无法防止有人为了在好期刊上发篇文章或有意或无意给出一些问题结论，概率上即使被发现也很推测出动机，多数情况也不值得重复，所以得过且过了。大家都要吃饭，the show must go on.

不过既然说到了同行评议，那就顺道打个广告，统计之都主站文章均采用基于全球最大同性交友网站的开放审稿系统，只要你PR过来，所有有账号的人都可以成为审稿人。即使文章已经发布，审稿也可以继续下去，我们更新下文章带个版本控制就可以了。统计之都当前并非学术期刊，但我们会实践一些新机制，将来或许哪一天就变成在线学术期刊也并非不可能。

这个关于文献中分布检验的主题就很适合整理成文章深度讨论，亲爱的朋友们啊，请投稿！

caizb

tctcab 好的，我对乱用的程度到底多大还是有疑问。就像一个不正经的人做一些不正经的事是常规操作，但突然做了一件过于不正经的事，不太符合人格的稳定性，难免让人产生疑问，会否有未知的原因 🤣

caizb

Liechi 谢谢，学习了

caizb

yufree 哈哈，原来如此。我是个程序员，帮人做个临床试验的数据处理，原来用SPSS，想写个宏都很费劲，程序员受不了每次执行都点一堆鼠标，所以转用R，豁然开朗。对医学和科研都是外行，不了解里面的生态，难怪医学讲了很多年询证，却还处于经验比知识有用的状态，原来科研生态就不太好。相比之下编程单纯多了，程序怎么样自有用户和市场来评价，开源了有同行star评价，用脚投票，用嘴开撕。
不过只要还有人真心热爱这些事情，不仅仅当做恰饭的手段，就肯定会力图改变，就像那首Imagine歌里唱的

But I'm not the only one

tctcab

我话撂这里: 大部分医生的科研都一言难尽(•̀⌄•́)

fenguoerbian

t检验重要的并不是原始数据是否正态，而是原始数据是否独立同分布，因为t检验的统计量是样本均值。在样本量足够多且独立同分布假设满足的情况下，大数定理自然保证检验统计量是正态的了。而在方差未知情况下的t分布度，随着自由度/样本量的增加也会趋近正态。

caizb

fenguoerbian 有点迷惑了，我纠结这个问题的时候也看到网上有人提到大数定理，去维基百科看了一下没懂，有没有科普风格易于食用的相关文章推荐一下？
医学统计学的教程一般都说“样本符合正态分布的用什么什么参数检验，不符合的用什么什么非参数检验”，或许不严谨但足够简单，简单则效率高，我们外行好吸收不容易跟丢。其实R语言就很高效，把数据给t.test就能收到一堆结果了，不需要了解内部怎么做的，只关心p值 😅 。甚至我最后使用的tableone包，一个函数就把最终需要的表格都生成了，我只需要告诉它变量是分类还是计量，以及哪些是非正态分布，简直过于体贴，这种使用方式不会包含大的错误吧？

fenguoerbian

caizb

实在不知道什么文章，如果教科书的话，我会推荐casella的那本《统计推断》。

独立同分布版本的大数定理：假设个体x都独立服从相同的分布f，其均值为\mu，方差为\sigma^2，那么样本均值\bar{x}就会渐近服从一个正态分布，均值依然为\mu，方差为\sigma^2 / n。

大数定理的牛逼之处在于并不在意原来的个体分布到底是什么样子，只要个体是独立同分布，那么其均值就会渐近到正态分布。而考虑到t检验本质就是在检验样本均值与你的目标值（或者与另一个对照组的均值）是否有差异，所以独立同分布的大样本t检验是可以不用在意原始的个体分布是否正态的。(总体方差未知的时候，用样本方差代入，此时会渐近t分布，大样本下t分布又会渐近正态）

但实际这样应用的一个问题在于，大数定理给出的是“渐近”正态，即逐渐近似到正态。这个“逐渐”的速度，依赖于样本量n，和你原本的个体分布f与正态之间的差异程度。极端例子来说，如果f本身就是正态，那n=1的时候的样本“均值”也是精确的正态分布（当然这个时候检验是不够敏锐的，毕竟方差没有压缩）；而f如果是个厚尾或者奇异分布，那n可能需要很大才能保证均值分布和正态是足够接近的。而这个n到底多少算足够大，在实际应用中是很有主观性的。

以下内容开始闲扯：

有的书里会说n > 26或者36就算大样本了，我不知道怎么定出来的。就像大家都喜欢p去跟0.05比，我也不知道缘由。就我所看到的，某些顶尖的药物/化学/代谢的科研机构发出来的文章，n=3就开始t检验，6就算是大样本，甚至有n=2就在t检验的。只能说圈子里的人觉得你没问题，那你就没问题。很多领域在使用统计工具的时候也是唯p值结果论的，并不在意p值的计算过程是否合理。就有人对我说过“你啥也别管，就给我把p弄小了就行” / “我为什么要换你说的检验，检完p都变大了不显著了”……所以对于只关心p值这件事，我是心发慌的。

所以，独立同分布的大样本，上t检验不会有什么大问题，哪怕个体分布不是正态。小样本用t检验，就需要个体是正态分布的；但小样本下的分布检验，本身结果可信度不高。最终还是看你的雇主，人家觉得分析结果没问题，那就没问题。

Liechi

fenguoerbian
大数定律的帽子好像被戴到了中心极限定理脑袋上了：）

caizb

fenguoerbian 谢谢讲解

fenguoerbian

Liechi
🤣 是我脑子里糊涂了，直接从样本均值收敛到总体均值跳到渐近正态上去了

s609078902

fenguoerbian
Liechi 的意思应该是你说的是中心极限定理的东西，大数定律应该是频率会逼近概率