一个有意思的计算,不过结果低估了核酸检测的准确性。一般核酸检测的真阳性率在百分之九十以上。

低估的原因在于计算假设了每次核酸检测的样品里都有恒量的病毒。实际上,从感染者接触病毒到被检测出来,期间有个病毒在细胞内复制,排出细胞,最后在胞外积累的过程。核酸检测结果呈阳性的概率和样品中的病毒量有关:样品中的病毒含量越大,越容易被检测出来。检测样品里的病毒含量取决于取样部位的载毒量,而载毒量是随时间变化的。所以前几次的检测为阴性大概率是因为病毒还没有排出细胞,或者样品中痕量的病毒还不足以被 PCR 检测出来。通常感染者从接触病毒到病毒可被检测出来需要数天时间,这就是为什么核酸检测要分不同批次来做的原因---如果只是因为单次检测的真阳性率低,那么一次取样,重复检测就可以提高准确性了。去年上海迪士尼公园有个烟花下的核酸检测,新闻看起来挺暖心,但其实没有什么实际意义。因为当天去迪士尼的游客即使接触到了病毒,在几个小时内就被检测出来的可能性几乎为零。所以没啥悬念,三万多人一致阴性。坦率讲,就算有阳性,也更可能是在别的地方感染的。

影响核酸检测结果的因素除了样品中的病毒量外,还有 PCR 引物的扩增效率, PCR 仪 和实验试剂的状态,以及实验员的操作等。其中引物的扩增效率是最先需要确定的,必须测试可靠才能大规模使用;PCR 仪和实验试剂的状态由每次实验中的阳性对照组来监测---只有这对照组的检测结果为阳性,这次实验的结果才能用;实验员的取样和 PCR 操作都很简单,可能有少数操作失误,但频繁出现操作失误的可能性很小。所以不用担心核酸检测的准确率太低 :)

    看了烟花下核酸的评价,意义也就在那暖心以及安定情绪上了,相关人员不会不清楚。

      lovebluesky
      ”没有实际意义“ 是就核酸检测的本来目的而言。但如你所说,让人安心很重要。汉妃名言,重要的是让人觉得被保护了:)

      我猜当时做大规模检测有两个作用,一是检测时的信息收录,有利于追踪后续发展;二是免责,以防这波成为导火索后,大家责备相关方面没有采取行动。事发突然,能迅速反应当然是好的,安定了人心而且舆论上反响也很好。倒是由今视昔,今非昔比啊。

        Liechi 这个90%也是需要满足样品里病毒浓度达到一定程度的前提才能做到的吧。

          fenguoerbian
          对。但这个基本量相对容易达到,因为病毒本身增殖很快;且 PCR 扩增又指数式放大原始信号,高循环数下可以检测到非常少量的病毒分子。有的样本在二十个 PCR 循环就能检测到病毒分子,有的需要三十多个循环。后者样品里的病毒量只有前者的约十万分之一。

            Liechi 昨日因,今日果,说这个有点冒风险,也不想讲这些。可怜的是普通人。

            5 天 后

            有意思,但是同意Liechi的观点:低估了准确性。

            或者“准确”地来讲,当我们说到核酸检测准确性时,我们指的是当病毒浓度达到一定值后,核酸检测的准确性。低估的是这个意义上的准确性数值。

            低估的原因,班门弄斧两句:

            反复检测时,时间维度已经发生了变化(过去了好些天),这导致此时检测的概率已和此前不是同分布了。
            或者说,病患感染的时间高度是核酸检测准确性的重要影响因素,所以撇开该因素去笼统地分析核酸检测准确性,就不那么恰当了。

            5 天 后

            对于文章本身的逻辑跟计算部分我觉得很有意思和借鉴意义,不过就像楼上liechi所述,由于 低估的原因在于计算假设了每次核酸检测的样品里都有恒量的病毒,假设不成立。为保持严谨,建议重修原文,增加这部分的讨论

            作为文章的作者,首先感谢大家的鼓励以及批评。尤其是 Liechi 的专业点评,这件事也给我提了个醒,如果对一个领域本身不熟悉,统计并不能加深对一个事物的认知,反而可能带来一些误导。

            其次,我想对文章思路稍作一些辩护:

            不妨设X=1,0代表个体是否感染病毒,Y=1,0代表单次核酸是否检测出阳性,文章希望估计的是P(Y=1 | X = 1)。基于大家的讨论,个体在不同感染阶段的病毒量是不同的,为了简化问题,不妨设感染一共有D=1,2 两个阶段,1阶段是感染初期,样本中几乎不含有病毒,检测出的可能性很小;2阶段是感染中后期,样本病毒量大,检测出的可能性更大。

            某次检测中,待检人群里已感染病毒病毒个体处于阶段1的概率可表示为P(D=1|X=1),处于阶段2的概率可表示为P(D=2|X=1),那么根据全概率公式,有:

            P(Y=1 | X = 1) = P(D = 1|X=1) * P(Y=1 | X = 1, D = 1) + P(D=2|X=1) * P(Y=1 | X = 1, D = 2)

            可以看到,P(Y=1 | X = 1)固然是对P(Y=1 | X = 1, D = 2)的低估,但我们同样也可说后者是对前者的高估。
            毕竟核酸检测的理想目标不是仅把阶段2的感染者筛出来,而是筛选出所有感染者,无论他在哪个阶段。因此,我认为从实际意义上看,P(Y=1 | X = 1) 比P(Y=1 | X = 1, D = 2)更有价值,这也是我原本想估计的概率。

            当然,现在看来,文章也算不上对P(Y=1 | X = 1)进行了合理估计,因为疫情发展不同阶段下,P(D = 1|X=1),或者说患者病情阶段的情况也是不同的,因此不同检验轮次中的P(Y=1 | X = 1)也是不同的。

              plumber
              原来是狼灭的文章啊,幸会,幸会。

              用统计来回答现实问题的实践非常好,思路也非常清晰,以至于我这样的统计小白都能看懂你的计算。希望以后能多投稿这样的文章。如果对相关背景不熟悉,也可以在坛子里讨论,这里有挺多其他行业的人。把统计应用到任何一个领域都有一个熟悉该领域的过程,不必担心路上会犯些小错。

              正如你分析的,反推核酸正确率是很困难的,所以了解核酸测试的灵敏度和准确率一般采用受控实验,直截了当;一般会在大规模推广前做。

              plumber 大家讨论比较多的是文中假设过于简单了。一般来说(大规模统计意义上的平均),不知道染上病毒,到可检测需要多长时间?以及在人体内病毒量随时间的变化是否有一般规律?

              我是外行,疫情出来很长时间了,不知道这个一般规律是否有权威期刊/疾控部门给出来。

              建议修改下文章,增加严谨性。首先在标题。文章的标题是个很宏大、很重要的话题。回答这个问题需要广泛、严谨地调研和收集数据。建议更改为更技术性的题目,侧重方法,这个争议小。

              文章的数据只是来自于一条新闻。首先,这个新闻里说的是否具有代表性、是否准确未知。第二,是在分析数据的时候暗含了一个假设——那就是假设连续检测最终为阳的人都是第一次检测前就阳了,但实际很可能此人在前几次检测前都未感染,而是后面才感染,这样就会极大的低估核酸检测的准确性。因此,文章用的数据和假设无法回答文章标题之问。

              眼下,核酸检测是个重要话题,千万人涉身其中。对其效果进行评估,需要更加科学和负责。

              我补充下修改方向,文章作为介绍极大似然估计是没问题的,以极大似然估计为主要目标来写新闻数据做个估算也不会有问题。当前问题在于新闻例子会被扩大化解读,而新闻中数据其实也可能并不符合极大似然估计对数据的假设,会出现对核酸检测准确率的争议性讨论,如果不能把局限性说清楚,以当前网络舆论环境会有问题。

              我理解作者描述的是一种直觉上的检测准确率,混合了所有步骤及现实情况。而分析上准确率是不包括采样不规范及中途感染等动态问题的,因此极大似然估计出的检测准确率只能说是适合当时当地采样分析条件的一个回测,是不好直接推广到所有场景下的,可作为管控初期经验不足时的一种体现。而广泛意义上的核酸准确率也只会指代分析化学意义上的准确率才有可比性,但如果不把这个说清楚就会被人解读为当前进行的所有核酸准确率大体都是这个水平。确实有可能但科学意义上可比性不强,容易出现误导。

              举个类似但更极端的例子,新冠初期死亡率与当前死亡率是有区别的,如果用极大似然估计我们大概也能估计出初期一个偏高的死亡率,但如果用初期死亡率去预估两年后未来一段时间的死亡率就有问题了,这就相当于把两年间疫苗、管控及治疗上累积的经验完全归零了,而且甚至病毒种类都不一样了。在检测上也可能存在实操经验累积及病毒变异逃逸等动态问题,为避免出现二极管式解读,建议弱化新闻而更多强调极大似然估计这一统计方法。

              4 天 后

              统计学是最容易先设立场,再围绕立场选数据、选算法、进而得出有利于自己既定立场的学科;就是因此,所以,统计学家们,你们做科研、写文章时,比起其它的学科的学者,更得小心、谨慎,更须要有极强的负责任——对科学本身、其至对你的研究所牵涉到的目标人群负任责——的自我意识;因为显然,你们的每一个结论,都会对小至人心、政策,大到一个族群的自信心,产生极强的影响。所以我们才说:正因为统计学是最容易受到研究者本身的立场——包括政治立场、情感立场等——影响的一个学科,所以才更要求统计学研究者,必须比其它学科的学者,更加注重、在意、小心自己在每一份工作后面的自己的(被自己意识到或没有被自己意识到的潜在的)内心立场!而千万,不能让“表面上看到的全是数字,内里面讲的全都是立场”这种(事实上常常发生的)事情发生!如果真发生了“点进去看,都是立场,玩弄数据”这样的事,那么,统计学家,和那些容易受感情影响的清谈者,又有何区别?——甚至,这样带来的影响会更坏:因为社会上的一般群众大都默认了这样一个纯朴的认知:“统计学家一般来说应该是我们可以信赖的理性的科学家”;所以,若统计学家们立场错了,产生的危害,岂有不大之理!统计学家是人民的最后一道防线,统计学这杆(容易被当枪使的)枪,只有正派的人掌握,才能福泽人民!

                2 个月 后

                1520141761 统计学属于数学系的一个专业,你所说的“”立场”指的应该是数学中的假设,那么我们完全没有必要担心所谓他们的“立场”,因为数学工作者们在文章中一定会明确直接地给出他们所作的假设,后面的结论完全由这些明确给出的假设导出,如果你觉得这些假设存在缺陷,你可以加以修正,数学工作者们不懂医学生物学,他们只是给出数学的推导方法,给出一个最为简化的模型。

                  RRudolf

                  不不不,这里没有我们他们,只有理论模型是否基本符合事实,否则模型与基本事实相差很大,就没什么实际价值了。

                  真空球形鸡当然可以讨论,但只有一个问题,就是没用