我们的实际问题是这样的:集合A和B分别有a和b个样本,其中有c个样本是重合的
由于我们的技术限制,只能以一定的阳性率p从A和B里面随机采样,形成样本集合A'和B',我们观察到a'和b'个样本,其中有c'个重合。我们希望用这些数据估计总体里面的重合率,也就是c/a和c/b。应该从何做起?
我觉得这个问题关键是总体的c个重合样本(算作集合C)在两次采样(A一次,B一次)中产生c'个共同样本的概率,该如何计算?
相关的问题是,从一个总体抽样两次,得到有overlapping的两个数据集,要检测他们是不是来自一个总体。记得以前学过怎么计算这类问题,现在都忘记了。。。
谢谢先:)