在一个大盒子里按照一定比例均匀混合着红、黄、蓝三种颜色的小球,为了估计这三种颜色的小球的个数比例,我们进行了4次取样:
第一次取出来的红、黄、蓝三种颜色的球个数分别是a,b,c个;
第二次取出来d个红色球,黄色和蓝色球具体个数不知道,但是它们一共有e个;
第三次取出来f个黄色球,红色和蓝色球具体个数不知道,但它们一共有g个;
第四次取出来h个蓝色球,红色和黄色球具体个数不知道,但它们一共有i个。
现在问:如何根据以上的取样结果较为准确的估计原来大盒子里红,黄,蓝三种颜色小球的个数比例?
========================下面是我的分析,高手可略过不看=======================
可以把大盒子里的小球算作一个无限总体,我们一共进行了4次独立取样,每次取样量不一样多,样本量越多对总体的估计就越准确。
我们从第一次取样中可以估计,红,黄,蓝三种球占总体的比例分别是:
a/(a+b+c), b/(a+b+c) 和 c/(a+b+c),
从第二次取样可以估计:红球的比例为d/(d+e)
从第三次取样可以估计:黄球的比例为f/(f+g)
从第四次取样可以估计:蓝球的比例为h/(h+i)
下面我们用第一次取样结果结合第二次取样估计:红球占的比例=(a+d)/(a+b+c+d+e)
下面我们用第一次取样结果结合第三次取样估计:黄球占的比例=(a+f)/(a+b+c+f+g)
下面我们用第一次取样结果结合第四次取样估计:蓝球占的比例=(a+h)/(a+b+c+h+i)
这相当于对两次取样结果做了加权平均,样本量作为权数。
到这里问题来了,后三次独立取样结果分别影响这三种球的比例估计,导致计算出来的三个比例加在一起可能不等于100%。
我的解决办法是用1-(红球占的比例+黄球占的比例)的出来的篮球比例和按照(a+h)/(a+b+c+h+i)公式做出来的比例再次做个加权平均。
总感觉自己想的办法笨笨的,请教各位大大有好的解决办法没?