求助极限分布——模拟数据征解中……

rtist · 2006年6月24日

分布函数G(x; n)连续且依赖于n。当n=4,5,6,...,N时，可得到G(x; n)的非连续经验分布EG(x; n) ，其中N为某固定正整数。

求助：如何得到 n-->Infinity 时G(x; n)的极限分布或其估计值？

模拟数据征解：见14楼。

yihui · 2006年6月25日

这道题我觉得无从下手……我去帮你搬救兵……

abel · 2006年7月5日

[quote]引用第0楼rtist于2006-06-25 06:06发表的“求助极限分布”:

分布函数G(x; n)连续且依赖于样本量n。当n=4,5,6,...,N时，可得到G(x; n)的非连续经验分布EG(x; n) ，其中N为某固定正整数。

求助：如何得到 n-->Infinity 时G(x; n)的极限分布或其估计值？[/quote]

矩估计的方法不足以得到精确的解析解；

在满足某些条件（当然，这些条件一般是可以满足的）的时候，可以给出一些具体的统计量的估计值。

rtist · 2006年8月14日

现在已经知道极限分布的形式了,但还缺一个参数.怎么估计参数呢?

没有极限分布下的样本,只有n=4...N时候的样本，但是又没有n=4..N时候的分布形式，怎么能得到极限分布所需要的一个参数？？

rtist · 2006年8月14日

[quote]引用第2楼abel于2006-07-05 13:19发表的“”:

距估计的方法不足以得到精确的解析解；

在满足某些条件（当然，这些条件一般是可以满足的）的时候，可以给出一些具体的统计量的估计值。[/quote]

没看懂

meactohn2003 · 2006年8月14日

问的是经验分布函数吧?

Glivenko-Cantelli Lemma

Let X1,x2,.... be iid as x with (unknown) distribution function F . Let ω be the outcome and

be the empirical distribution function based on observations X1(ω),x2(ω).... . Then, as n tends to

infinity

tends to 0 a.s.

Fix ω Fn converges to F uniformly.

rtist · 2006年8月14日

sorry, 看来是我没说清楚我的问题。

这么说吧：

Gn(X)是未知形式的真正的分布函数：也就是说n=4的时候，G4(X)是一种分布；n=N=100的时候，G100(X)是另外一种分布。这97个分布函数的形式我都不知道，但是我可以在这97个分布下各取一个大样本，因此我有97个经验分布EG4(X),...,EG100(X)。上面的引理说，只要样本量足够大，那么这97个经验分布converge到Gn(x)——换句话说，我可以很好的用数据来近似这97个真正的分布函数。可是我需要的不是这97个分布函数中的任何一个，而是要得到GInfinity(X)的估计。

另外，已知GInfinity(X)＝F(X;p)的形式，但是其中的参数p未知。

所以实际上我需要得到的就是这个参数p的估计值。得到了p，也就得到了GInfinity(X)。

G4(x),...,G100(x)的形式都不知道，所以也就不知道参数p在里面究竟什么样子，而仅仅知道在GInfinity(x)中的形式。而矛盾就是：我所有的样本都是在G4(x),...,G100(x)下取得的，想用这些数据来估计p该怎么做？？

ypchen · 2006年8月15日

我们下周一图书馆才开这周一在外文库看见一本书讲极限分布了下周看看

meactohn2003 · 2006年8月15日

Gn(x)之间是什么联系？如果没有联系，那n趋于无穷是什么意思？你自己想出来的问题，很厉害，赫赫！

meactohn2003 · 2006年8月15日

第一楼说n是样本量但上一楼的n说似乎不是样本量，不知道我的理解对吗——

绿色心晴 · 2006年8月19日

F(x,p)也是一个分部函数吧，x趋于正无穷的时候F就趋于1。p就可以求出来了吧

rtist · 2006年8月19日

[quote]引用第10楼绿色心晴于2006-08-19 12:35发表的“”:

F(x,p)也是一个分部函数吧，x趋于正无穷的时候F就趋于1。p就可以求出来了吧[/quote]

并不知道有限样本下表达形式什么样，无限样本的时候虽然知道表达形式，但是没有数据（也不可能有无限样本的数据），所以只用它没法估计参数。

我觉得我最需要的是在有限与无限情况下建立某种联系，才能解决矛盾。可是不知道应该是什么样的联系。

rtist · 2006年8月19日

[quote]引用第9楼meactohn2003于2006-08-16 01:56发表的“”:

第一楼说n是样本量但上一楼的n说似乎不是样本量，不知道我的理解对吗——[/quote]

恩，说样本量是不太合适，我刚才编辑了一下帖子改过来了。举个例子来说，它就像是二项分布的n，而我需要的是参数p，但是我只知道n为无穷大的时候二项分布函数表达式，而不知道有限的n的二项分布函数什么样子。

rtist · 2006年8月19日

[quote]引用第8楼meactohn2003于2006-08-16 01:53发表的“”:

Gn(x)之间是什么联系？如果没有联系，那n趋于无穷是什么意思？你自己想出来的问题，很厉害，赫赫！[/quote]

说想出来的，不如说是从一个看似很不相干的实际研究中抽象出来的问题（当然如果不想的话也不会有问题）。Gn(X)之间当然有联系，n越大Gn(X)越趋近于一个已知形式的函数，但是该极限分布函数的参数未知。

rtist · 2006年8月19日

刚才模拟了一点数据，见图：

假设所研究的所有分布的support都在[0,1]区间上（就像ｂｅｔａ分布那样），图中四条黑色的曲线是n=4,8,16,20时四个经验分布函数的曲线，而红色的直线是极限分布的函数曲线；n越大，经验分布函数越接近于极限分布函数。现在n=4,...,20的时候的经验分布都可以得到（为了避免重叠，我只画了四条在图上），问题是想从n=4,...20这17条线中估计出那条n为无穷大的时候的直线。假设已知极限分布函数必是经过点（1，1）的一条直线，所以只要得到截距p就可以确定这个分布函数。

上面的数据是我随便模拟的，所以我知道真正的p应该是0.2。

而可以用的数据就是n=4,...,20时候的经验分布：对于每个n，x都在[0,1]的区间上取了1001个点，并计算出这个时候的经验分布函数的值。数据见文件：

click here demodat.txt

文件中第一列是x，第2－18列分别是n=4-20的时候的经验分布函数的值，与第一列的x相对应。

that is, each column(except for the first one) is an evaluated ecdf at x.

希望有兴趣的朋友可以用这个模拟数据试一试，看看你估计到的p与真正的0.2相差多远。最好能做个bootstrap，把你的估计量的bias和variance也汇报出来。当然，能把你用的方法讲出来更好；如果有其它原因，不讲也无所谓。如果对这个模拟数据的效果真的很好，我会主动联系你合作的。

这是从一个看似毫不相干的实际研究中延伸出来的一个问题。如果你的bias和variance都足够小，我很愿意和你合作，共同署名发表。当然，如果你知道怎么做，你也可以自己发表，而不提问题是从哪里来的。但是我觉得统计编辑一般不会喜欢那种没有什么明确的实际应用价值的文章。统计还是应该从实际中来，回实际中去。

一种可能的思路就是用这十七条曲线拟和一个存在极限的曲面，然后求这个曲面的极限。（但是这种方法肯定会存在一些问题；不过如果好用，当然可以用）

感兴趣的朋友可以回帖或者论坛短信联系。

More test data with true parameter=0.35: Click here for zipped tar ball

绿色心晴 · 2006年8月19日

我看不到图啊,不知其他人能不能看到?

rtist · 2006年8月19日

[quote]引用第15楼绿色心晴于2006-08-19 20:42发表的“”:

我看不到图啊,不知其他人能不能看到?[/quote]sorry,我刚刚意识到国内上不了geocities。刚换了个国内的，现在应该可以看到了吧？

ypchen · 2006年8月19日

非常欣赏rtist的这种学术精神下周我查查文献有什么消息会公布的只为交流而已

PS：我觉得这个问题是不是可以这样想先假定一个分布再用假设检验的方法去验证我记得好象有个柯尔莫哥洛夫——斯密尔洛夫检验

rtist · 2006年8月19日

[quote]引用第17楼ypchen于2006-08-19 22:19发表的“”:

非常欣赏rtist的这种学术精神下周我查查文献有什么消息会公布的只为交流而已

PS：我觉得这个问题是不是可以这样想先假定一个分布再用假设检验的方法去验证我记得好象有个柯尔莫哥洛夫——斯密尔洛夫检验[/quote]

俺那有啥精神呀，不过是没学过啥数学自己解决起来实在太困难而已。

和你说的这个类似的我也试过，只是我不是做检验，而是找optimization的统计量，应该和做检验是一个思路，但是效果很差。我是随便假定一个gamma分布（partly because那次尝试的时候我也用gamma模拟数据），它有两个参数外加一个我想要的p，然后找使 ks 统计值最小化的这三个参数。不过我用R的optim()函数做，经常估计到的p不是0就是1（也就是p的上下限），当然这也可能是因为我的起始值给的不好。

统计剑侠 · 2006年10月13日

1.我的统计知识不全面,也不深入,我特别喜欢的是高斯的"最小二乘法",您的这个帖我多次看,没有回您的这个帖,因为我实在对"四个经验分布函数"还陌生,,所以希望其他高手能够帮助您,早日解决这个难题.我说这句话是真诚的.所以来顶一下.

2.我们是"不打不相识' 您坚持自己的原则观点,我能够理解,我也坚持自己的观点,我以前QQ喜欢用的网名就是"浪子不回",只是可惜被别人盗用去了. 后来重新注册了其它网名.