刚才模拟了一点数据,见图:

假设所研究的所有分布的support都在[0,1]区间上(就像beta分布那样),图中四条黑色的曲线是n=4,8,16,20时四个经验分布函数的曲线,而红色的直线是极限分布的函数曲线;n越大,经验分布函数越接近于极限分布函数。现在n=4,...,20的时候的经验分布都可以得到(为了避免重叠,我只画了四条在图上),问题是想从n=4,...20这17条线中估计出那条n为无穷大的时候的直线。假设已知极限分布函数必是经过点(1,1)的一条直线,所以只要得到截距p就可以确定这个分布函数。
上面的数据是我随便模拟的,所以我知道真正的p应该是0.2。
而可以用的数据就是n=4,...,20时候的经验分布:对于每个n,x都在[0,1]的区间上取了1001个点,并计算出这个时候的经验分布函数的值。数据见文件:
click here demodat.txt
文件中第一列是x,第2-18列分别是n=4-20的时候的
经验分布函数的值,与第一列的x相对应。
that is, each column(except for the first one) is an evaluated ecdf at x.
希望有兴趣的朋友可以用这个模拟数据试一试,看看你估计到的p与真正的0.2相差多远。最好能做个bootstrap,把你的估计量的bias和variance也汇报出来。当然,能把你用的方法讲出来更好;如果有其它原因,不讲也无所谓。如果对这个模拟数据的效果真的很好,我会主动联系你合作的。
这是从一个看似毫不相干的
实际研究中延伸出来的一个问题。如果你的bias和variance都足够小,
我很愿意和你合作,共同署名发表。当然,如果你知道怎么做,你也可以自己发表,而不提问题是从哪里来的。但是我觉得统计编辑一般不会喜欢那种没有什么明确的实际应用价值的文章。统计还是应该从实际中来,回实际中去。
一种可能的思路就是用这十七条曲线拟和一个存在极限的曲面,然后求这个曲面的极限。(但是这种方法肯定会存在一些问题;不过如果好用,当然可以用)
感兴趣的朋友可以回帖或者论坛短信联系。
More test data with true parameter=0.35:
Click here for zipped tar ball