我们的实际问题是这样的:集合A和B分别有a和b个样本,其中有c个样本是重合的

由于我们的技术限制,只能以一定的阳性率p从A和B里面随机采样,形成样本集合A'和B',我们观察到a'和b'个样本,其中有c'个重合。我们希望用这些数据估计总体里面的重合率,也就是c/a和c/b。应该从何做起?

我觉得这个问题关键是总体的c个重合样本(算作集合C)在两次采样(A一次,B一次)中产生c'个共同样本的概率,该如何计算?

相关的问题是,从一个总体抽样两次,得到有overlapping的两个数据集,要检测他们是不是来自一个总体。记得以前学过怎么计算这类问题,现在都忘记了。。。

谢谢先:)

这是在做bootstrap还是什么?

检验两批数据是否来自与一个总体这样的问题太宽泛了,通常我们把它简化为例如检验两样本均值是否相等,要不就用KS检验(这大概是唯一一个检验分布是否相同的检验了)。但检验是否同一总体跟你的“重合率”估计又有什么关系?即使总体分布相同,重合率也可能是零(比如连续分布)。

很感谢你的回复,抱歉没说清楚。

这个不是定量数据,每个样品都有一个unique ID。A和B本身有一些common member,在我们采集的样本里面也有,我们希望通过我们采集的样本A'和B'里面共同的样品的数目,来估计原始的A和B有多少个shared member。。。

想了想,从总体中抽一次,然后再抽一次,根据common sample是数目来估计两次抽样是不是一个总体,应该是按照超几何分布来做估计