求助：关于期望的置信区间（很有意思）

马甸尼

一个很有意思的问题，希望高手帮忙：）

在区间估计中，求期望的置信区间时，分为方差已知和方差未知的情况。因此在此两种情况下会分别得到两个对应的置信区间。

现在的问题是：方差已知条件下的置信区间一定小于方差未知条件下的置信区间吗？为什么？

因为在做题的时候，发现无一例外都得到了肯定的答案，但我怀疑出题者有刻意编造方差的嫌疑。

希望各位高手帮我，能给出证明最好，不胜感激！！！

马甸尼

我觉得随着样本数量的变化，应该不是确定唯一的～

oliyiyi

信息多时的置信区间窄啊，同样的道理，参数的置信区间一定比非参的窄啊（参数设定正确的前提下）！

马甸尼

[quote]引用第2楼oliyiyi于2007-05-15 21:22发表的“”:

信息多时的置信区间窄啊，同样的道理，参数的置信区间一定比非参的窄啊（参数设定正确的前提下）！[/quote]

不一定吧，老师说，很多人都是这么理解的，但是个误区，所以问问大家

希望大家能好好想想，不胜感激～

莫名

不清楚，感觉两种皆有可能

yihui

写出置信区间的表达式，一切自然明了，数学中的大部分道理是不需要猜测的。

置信区间是否更窄或宽，问题只是在于样本方差与总体方差孰大孰小（因为置信区间的表达式仅仅与方差有关），显然这是没有确定关系的。那么置信区间孰宽孰窄，这也是不一定的事情。

cran

有一个问题，当你用parametrizid CI的时候，要对data的分布有一定的了解。如果assumption不valid,CI也没有意义。

我觉得这个不能说很简单的比的。

马甸尼

[quote]引用第5楼谢益辉于2007-05-16 21:24发表的“”:

写出置信区间的表达式，一切自然明了，数学中的大部分道理是不需要猜测的。

置信区间是否更窄或宽，问题只是在于样本方差与总体方差孰大孰小（因为置信区间的表达式仅仅与方差有关），显然这是没有确定关系的。那么置信区间孰宽孰窄，这也是不一定的事情。[/quote]

比较赞同这种说法

那么，如果想计算参数的置信区间比非参的窄的概率，应该怎么做呢？

多谢！

oliyiyi

这个问题曾经是我的一个homework！

给你我的homework 的代码（sas9.13）：

用指数分布生成生存数据（均匀分布生成删失点），分别使用非参数方法（k-m估计）和参数模型估计分布，最后画出两者的置信区间。（增加样本量到足够大时，且多次重复时，可以看成是期望的。）

/***homework for page27***/

data rcdata;

do i=1 to 100;

xt=rand('EXPONENTIAL');

x=round(xt/0.5,0.001);

yt=rand('uniform');

y=round(yt*7,0.001);

z=min(x,y);

deta=(x<=y);

output;

end;

drop i xt yt;

proc print;

run;

proc univariate;

var x y deta;

run;

proc sort data=rcdata;

by z;

run;

proc print data=rcdata;

run;

proc lifetest data=rcdata outsurv=tt;

time z*deta(0);

run;

proc iml;

use rcdata;

read all var {deta} into deta;

read all var {z} into z;

close;

use tt;

read all into tt;

close;

p=sum(deta)/sum(z);print p;

zz=j(100,1,0);

do i=1 to 100;

zz=exp(-p*z);

end;

a=2:101;k=tt[a,3];kn=tt[a,4:5];print kn;

print zz,k;

prob = .05;

noqua = probit(1. - prob/2);print noqua;

stderr=sum(deta)/sum(z)**2;print stderr;

zzl=zz-noqua*stderr;

zzu=zz+noqua*stderr;

print zzl,zzu;

do i=1 to 100;

if zzu>1 then zzu=1;

end;

print zzu;

true=j(100,1,0);

do i=1 to 100;

true=exp(-0.5*z);

end;

lastm=z||true||zz||k||zzl||zzu||kn;print lastm;

create lastdata var{time true_s par_s nop_s par_l par_u nop_l nop_u} ;

append from lastm;

close;

quit;

axis1 order = (0 to 1 by .05);

axis2 order = (0 to 6 by .2);

symbol1 i = stepjl c = black v=none line=3 w=1;

symbol2 i = join c = blue v=none line=1 w=2;

symbol3 i = join c = red v=none line=2 w=1;

proc gplot data=lastdata;

title 'estimate survival function';

label nop_s='survival probility';

plot nop_s*time=1 true_s*time=2 par_s*time=3

/overlay vaxis = axis1 haxis=axis2;

run;

symbol4 i = join c = black v=none line=3 w=1;

symbol5 i = join c = blue v=none line=1 w=2;

symbol6 i = join c = red v=none line=2 w=1;

proc gplot data=lastdata;

title 'estimate survival function confidence';

label true_s='survival probility';

plot true_s*time=5 nop_l*time=4 nop_u*time=4

par_l*time=6 par_u*time=6/overlay vaxis = axis1 haxis=axis2;

run;

quit;

pigtail

区间长度反映了信息量的情况，在知道方差的情形下，表明信息比较充足，区间长度比较短。非参估计与参数估计的情形也一样，因为参数估计假设有更多的信息在里面

马甸尼

[quote]引用第2楼oliyiyi于2007-05-15 21:22发表的“”:

信息多时的置信区间窄啊，同样的道理，参数的置信区间一定比非参的窄啊（参数设定正确的前提下）！[/quote]

谢谢楼上的几位朋友

现在我想做的就是证明参数的置信区间不一定比非参的窄，因而说明参数设定并不正确（也就是有人设定了并不正确的数据！）

想说明这点，首先需要证明参数的置信区间不一定比非参的窄~

马甸尼

[quote]引用第8楼oliyiyi于2007-05-22 12:38发表的“”:

这个问题曾经是我的一个homework！

给你我的homework 的代码（sas9.13）：

用指数分布生成生存数据（均匀分布生成删失点），分别使用非参数方法（k-m估计）和参数模型估计分布，最后画出两者的置信区间。（增加样本量到足够大时，且多次重复时，可以看成是期望的。）

/***homework for page27***/

data rcdata;

.......[/quote]

谢谢oliyiyi朋友

能帮我稍微讲讲吗，多谢！

oliyiyi

[quote]引用第10楼马甸尼于2007-05-26 15:01发表的“”:

谢谢楼上的几位朋友

现在我想做的就是证明参数的置信区间不一定比非参的窄，因而说明参数设定并不正确（也就是有人设定了并不正确的数据！）

想说明这点，首先需要证明参数的置信区间不一定比非参的窄~[/quote]

前提条件是参数模型设定正确，因为在我的模拟中，是用指数分布生成数据，所以用指数分布拟合数据得到的置信区间（置信带更确切）一般来说比非参的窄。

如果参数模型的设定不正确，当然结论就不成立了。

如果你不能确定你参数模型的设定是否合理（当然在实际问题中无法判断，只能用一些准则来比较模型，例如基于相对熵的aic，bic，dic，但模拟是可以保证设定合理的），那讨论置信区间的宽窄就没有意义了。

马甸尼

无参的时候就是用样本统计量来代替总体参数的时候。

我觉得实质上牵涉到两个问题：

其一，样本方差（标准差）与总体方差（标准差）的大小问题。

其二，在给定的显著性水平（或置信度）下Z分布和T分布的临界值比较。

首先说第二个问题，因为T分布较标准正态分布有矮峰厚尾特征（可以看看分布表或比较图），尤其是小样本情况（也就是T分布自由度较小时），这种特征更为明显，所以T临界值肯定大于Z临界值（在显著性水平较小的情况下）。也就是说如果仅仅考虑这一因素会导致无参情况下的区间长度较长。

不过还有第一个因素，这也是决定性的因素。也就是样本方差和总体方差的比较问题，之所以容易混淆在于：如果仅仅是样本平均数的标准差，肯定要小于总体标准差。但是，这里是样本标准差，样本方差和总体方差也就是我们常说的S平方和西嘎玛平方之间并不能确切的比较大小。证明我就不证了，我举一个例子，你从总体5，5，5，5，1，9中取两个数作为样本，比如你取到1，9。总体方差是5.33，样本方差是16，如果你比较幸运的取到5，5。则样本方差为0，能比较大小吗？

oliyiyi

[quote]引用第13楼马甸尼于2007-05-27 13:20发表的“”:

无参的时候就是用样本统计量来代替总体参数的时候。

我觉得实质上牵涉到两个问题：

其一，样本方差（标准差）与总体方差（标准差）的大小问题。

.......[/quote]

你考虑过样本充分大时，非参和有参的渐进差别吗？我们说的不是同一问题。

另外非参的方法，不能简单的理解为样本统计量来代替总体参数，你这样做就已经假定了数据生成的参数模型。（你这样，岂不距估计量都成了非参）

马甸尼

[quote]引用第14楼oliyiyi于2007-05-27 14:24发表的“”:

你考虑过样本充分大时，非参和有参的渐进差别吗？我们说的不是同一问题。

.......[/quote]

可能是我没想清楚吧

最近想写个论文，内容是讨论本科概率统计教材中的数据。

关于求解期望的置信区间的题目这部分里，会有一类题目，是给出样本求期望的置信区间，在方差已知和方差未知的条件下分别设问，最后得出两个结果

在经过调查之后，我发现无一例外，全部都是方差已知下的区间窄

于是我怀疑，所谓“方差已知”，“已知”的方差有可能是认为捏造的，因为很多人都有“参数的区间一定窄”的误区。

现在我想证明，“参数的区间不一定窄”，以及想得出“参数的区间窄”这一事件的概率

谢谢