有N个数据点。每个数据点是一个SAMPLE SIZE为M的样本的最大值。 这些SAMPLE SIZE

为M的样本来自一个未知的分布F(X). 请问如何估计这个未知分布的MEDIAN?
hard but interesting problem.

at first sight, i'd thought it's impossible, the data just doesn't contain the necessary information.

at the second sight, an intuitive estimator came up, that is the minimum of all these N points, but no good properties can be thought of.

at third sight, i guess maybe some nonparametric theories might help, but i don't think this is what i can solve.
假设X~normal distribution,该怎么估?
貌似非参数的方法往往更多是用来做检验,较少用来做估计。



分布未知,知道的又只是最大值,恐怕没什么好办法估计中位数吧……我用R做了一下模拟,也看不出最大值和中位数有任何联系。 micro@说的N个数据点的最小值在我的模拟中离Median也差很远。
[quote]引用第3楼谢益辉2006-10-07 14:35发表的“”:

貌似非参数的方法往往更多是用来做检验,较少用来做估计。



分布未知,知道的又只是最大值,恐怕没什么好办法估计中位数吧……我用R做了一下模拟,也看不出最大值和中位数有任何联系。 micro@说的N个数据点的最小值在我的模拟中离Median也差很远。[/quote]

the nonpar theories i'm thinking of is those resampling and empirical cdf properties, though i don't know how to get that.

the minimum of N points is what i can get as best as i can up to now. i agree it could be far from truth esp when either M or N is small, but can any other estimators beat this?



also, another promising track is thru extreme value theory.
请问谁见过这个的df吗?



X~n(mean,sigma).



M=max{Xi},i=1,2,.....,m



求M的df.



我觉得有点像习题。也许正像micro所说的可以从extreme value theory寻找答案。
我做出了一个结果,不太确定。刚才模拟了一下,结果好像没问题。用s-plus里面的cdf.compare比较normal cdf和M的emperical cdf,可以发现以下关系。



不局限于normal dist.对于X~any cdf F(X), M=max{Xi},i=1,2,.....,m,将有F'(M)=F^m,就是说M的累积分布函数将等于F(X)的m次方。



因为本人实分析不精,所以推导过程有可能有误。还好模拟结果还成,斗胆发了出来。



听说是次序统计量的公式一个特例。去找书看看去。
那么,到这里我已经提出了一个估计方法了。

如果分布不清楚,则由M的emperical cdf变换到X的cdf,然后用非参数估计。

如果假定分布清楚,则由M的emperical cdf与X的cdf之间的关系,得出估计值。
cool.



it looks quite good except near the beginning of the cdf.

how did you derive that?
参考一下顺序统计量的估计方法吧



如果总体分布已知的话,顺序统计量的计算是可能的。



在一本《数理统计讲义》(陈家鼎!?)的书上有均匀分布情况下求最大值的例子。貌似是估计德国坦克的数量云云。中位数可用类似方法来构造一个统计量出来。



实际上和楼上的思路非常一致,可以沿着这本书上的思路做一些推广。分位数说白了就是一个顺序统计量的问题,中位数应该也是如此。



如果整体分布未知的情况下,变通一下,考虑样本来估计这个冬冬,不知道可行不可行,没有严格证明过,顺着这个思路证明一下试一试也许能成吧。



提供一个思路,总结楼上的想法,见笑了。
数学推导恐怕我没有那本事了……但我觉得M的累积分布函数与原F(X)应该不是直接的m次幂的关系吧(起码来说它们的位置参数就不一样),我把我的模拟程序以及结果(经验分布函数,Empirical Cumulative Distribution Function)放在下面:


med=function(m,n) { <br />
   x=matrix(rnorm(m*n),m,n)<br />
   xmax=apply(x,2,max)<br />
   xmax<br />
}<br />
par(mfrow=c(2,1)) <br />
plot(ecdf(med(100,20)),main=expression(paste("ECDF of ", Max[i], " {", x[ij], "; i=1,...,M}, j=1,...,N")))<br />
plot(ecdf(rnorm(20)),main="ECDF of rnorm(N)")




同意abel。



我更想知道,这个问题究竟有什么实际价值??
比如,校长大人看到各位班主任交上来的学生成绩,但班主任为了面子,只把最好的学生成绩交上去了,这位校长同志(八成是学统计的)就想以此估计一下各班的平均成绩
先回复谢:



确实是m次方的关系,可以看许多英文的数理统计书都有order statistics这个内容。当初我们学的时候这些内容都跳过去了,要不是有人今天提这个问题我还不会拾起书来翻阅到这么一个有用的信息。





我今天只把估mean的渐进方法做出来了(不限定X的分布)。我觉得估mean可能也一样有意义。但是这个渐进方法很依赖于大样本量n;尤其是m增大以后,n的需求是急速的增大才能控制住偏差,还好的是偏差的方向是固定的,即我的方法估出的要比实际的mean要大。举1个例子:
N<-500<br />
M<-3<br />
Mean<-50<br />
Var<-10<br />
data<-c()<br />
for(i in 1:N)<br />
{<br />
    data[i]<-max(rnorm(M,Mean,Var))<br />
}


这么一个数据估出来的是

mean=50.64337

但是M<-10,则mean估出来会mean=53.45107



当然Var的增大也会导致估出来的mean会增大。



唯一值得庆幸的是n的增大可以让估计收敛到真实值。



各位帮我想一想如何应用。最好是Empirical Research 方面的例子。比如一个自己瞎想的例子,古代有个国家有n个村,每个村都大概有M个人,由于国王举办了一场超级寿星比赛,于是遗留了记载有这n个村里寿命最长的人的寿命的纪录,除此之外,关于其他人的寿命我们一无所获。我们由此来估计当时那个国家的人的平均寿命。
我可以把S-Plus的程序贴一下,就可以看到m次方的关系了
N<-500<br />
M<-3<br />
Mean<-0<br />
Var<-1<br />
data<-c()<br />
for(i in 1:N)<br />
{<br />
    data[i]<-max(rnorm(M,Mean,Var))<br />
}<br />
cdf.compare(data,dist="norm")
请问ecdf是什么语言上的,S-Plus没有啊
R语言。



BTW,发代码的时候请使用
标签,我在入坛必读中说明了。你的帖子我已经修改过来了。自己注意看代码。<br />
<br />
《COS论坛说明》(进入论坛必读)2006-10-08更新:[url]http://cos.name/bbs/read.php?tid=1553[/url](一、5)
[quote]引用第11楼rtist2006-10-08 16:40发表的“”:

同意abel。



我更想知道,这个问题究竟有什么实际价值??[/quote



事实上如果能估计出来总体的精确分布的话(表达式、参数等已知),求任何统计量都是轻而易举的,我上面的表述实际上有一些不严格的地方,不过构造统计量的思路还是如此吧。

至于实际价值,我想顺序统计量应该是针对某些特定的值的一种估计吧,社会生活中这种情况还是多多会出现的。



不知道Rtist兄对于一个推广一点的问题有没有兴趣:比如说有些上市公司为了保住挂牌(在国内股市尤其突出,比如要达到某某条件,如盈利要不低于6%),于是在经济学的角度来看就存在作假可能。



一般来说,超过这个界限的公司没有必要作假了(不考虑其他情况,比如吸引更多投资啥的),如果低于这个盈利水平的,我要是老板就会请中介机构在审计的时候高抬贵手了。



这样以来一个分布就依据某些条件被截断了(这种截断条件应该是可以在某种数学意义上可以表达的),但是做整体的评估的时候,需要知道真实的,而不是中介调整以后的数据。



不知道这个例子讲解是否清晰表达我的意思。实际上有点像某一个分布在某种条件后分布改变了,现在你知道改变的条件,如何通过改变后的分布获得初始的分布,也许要求精确的分布太严格了,那么计算一些统计量是否可能呢?



我国的股市也许可以通过这个思路来建立一个统计方面的模型来处理一下,对于实践来说还是多有用的。



曾经和CCER的一个老师讨论过这个问题,可惜我连股市上这个具体问题都没能够圆满解决,一些假设太苛刻了,要推广还是存在一些困难。不知道Rtist兄有什么好的建议没有?



我倒是想通过股市的例子可以找到一个具体的案例突破,不过手头的事情太多了,隐约知道一个方向,但是距离严格解决还是有多大差距的。也许论坛上有谁能解决这个问题吧,如果有人解决了,一定请告诉我方法。
谢谢各位,居然有这么多例子。

abel: 我对任何经济问题均一窍不通,钱都是老婆管的。