作为文章的作者,首先感谢大家的鼓励以及批评。尤其是 Liechi 的专业点评,这件事也给我提了个醒,如果对一个领域本身不熟悉,统计并不能加深对一个事物的认知,反而可能带来一些误导。
其次,我想对文章思路稍作一些辩护:
不妨设X=1,0代表个体是否感染病毒,Y=1,0代表单次核酸是否检测出阳性,文章希望估计的是P(Y=1 | X = 1)。基于大家的讨论,个体在不同感染阶段的病毒量是不同的,为了简化问题,不妨设感染一共有D=1,2 两个阶段,1阶段是感染初期,样本中几乎不含有病毒,检测出的可能性很小;2阶段是感染中后期,样本病毒量大,检测出的可能性更大。
某次检测中,待检人群里已感染病毒病毒个体处于阶段1的概率可表示为P(D=1|X=1),处于阶段2的概率可表示为P(D=2|X=1),那么根据全概率公式,有:
P(Y=1 | X = 1) = P(D = 1|X=1) * P(Y=1 | X = 1, D = 1) + P(D=2|X=1) * P(Y=1 | X = 1, D = 2)
可以看到,P(Y=1 | X = 1)固然是对P(Y=1 | X = 1, D = 2)的低估,但我们同样也可说后者是对前者的高估。
毕竟核酸检测的理想目标不是仅把阶段2的感染者筛出来,而是筛选出所有感染者,无论他在哪个阶段。因此,我认为从实际意义上看,P(Y=1 | X = 1) 比P(Y=1 | X = 1, D = 2)更有价值,这也是我原本想估计的概率。
当然,现在看来,文章也算不上对P(Y=1 | X = 1)进行了合理估计,因为疫情发展不同阶段下,P(D = 1|X=1),或者说患者病情阶段的情况也是不同的,因此不同检验轮次中的P(Y=1 | X = 1)也是不同的。