马甸尼
一个很有意思的问题,希望高手帮忙:)
在区间估计中,求期望的置信区间时,分为方差已知和方差未知的情况。因此在此两种情况下会分别得到两个对应的置信区间。
现在的问题是:方差已知条件下的置信区间一定小于方差未知条件下的置信区间吗?为什么?
因为在做题的时候,发现无一例外都得到了肯定的答案,但我怀疑出题者有刻意编造方差的嫌疑。
希望各位高手帮我,能给出证明最好,不胜感激!!!
马甸尼
我觉得随着样本数量的变化,应该不是确定唯一的~
oliyiyi
信息多时的置信区间窄啊,同样的道理,参数的置信区间一定比非参的窄啊(参数设定正确的前提下)!
马甸尼
[quote]引用第2楼oliyiyi于2007-05-15 21:22发表的“”:
信息多时的置信区间窄啊,同样的道理,参数的置信区间一定比非参的窄啊(参数设定正确的前提下)![/quote]
不一定吧,老师说,很多人都是这么理解的,但是个误区,所以问问大家
希望大家能好好想想,不胜感激~
莫名
不清楚,感觉两种皆有可能
yihui
写出置信区间的表达式,一切自然明了,数学中的大部分道理是不需要猜测的。
置信区间是否更窄或宽,问题只是在于样本方差与总体方差孰大孰小(因为置信区间的表达式仅仅与方差有关),显然这是没有确定关系的。那么置信区间孰宽孰窄,这也是不一定的事情。
cran
有一个问题,当你用parametrizid CI的时候,要对data的分布有一定的了解。如果assumption不valid,CI也没有意义。
我觉得这个不能说很简单的比的。
马甸尼
[quote]引用第5楼谢益辉于2007-05-16 21:24发表的“”:
写出置信区间的表达式,一切自然明了,数学中的大部分道理是不需要猜测的。
置信区间是否更窄或宽,问题只是在于样本方差与总体方差孰大孰小(因为置信区间的表达式仅仅与方差有关),显然这是没有确定关系的。那么置信区间孰宽孰窄,这也是不一定的事情。[/quote]
比较赞同这种说法
那么,如果想计算参数的置信区间比非参的窄的概率,应该怎么做呢?
多谢!
oliyiyi
这个问题曾经是我的一个homework!
给你我的homework 的代码(sas9.13):
用指数分布生成生存数据(均匀分布生成删失点),分别使用非参数方法(k-m估计)和参数模型估计分布,最后画出两者的置信区间。(增加样本量到足够大时,且多次重复时,可以看成是期望的。)
/***homework for page27***/
data rcdata;
do i=1 to 100;
xt=rand('EXPONENTIAL');
x=round(xt/0.5,0.001);
yt=rand('uniform');
y=round(yt*7,0.001);
z=min(x,y);
deta=(x<=y);
output;
end;
drop i xt yt;
proc print;
run;
proc univariate;
var x y deta;
run;
proc sort data=rcdata;
by z;
run;
proc print data=rcdata;
run;
proc lifetest data=rcdata outsurv=tt;
time z*deta(0);
run;
proc iml;
use rcdata;
read all var {deta} into deta;
read all var {z} into z;
close;
use tt;
read all into tt;
close;
p=sum(deta)/sum(z);print p;
zz=j(100,1,0);
do i=1 to 100;
zz=exp(-p*z);
end;
a=2:101;k=tt[a,3];kn=tt[a,4:5];print kn;
print zz,k;
prob = .05;
noqua = probit(1. - prob/2);print noqua;
stderr=sum(deta)/sum(z)**2;print stderr;
zzl=zz-noqua*stderr;
zzu=zz+noqua*stderr;
print zzl,zzu;
do i=1 to 100;
if zzu>1 then zzu=1;
end;
print zzu;
true=j(100,1,0);
do i=1 to 100;
true=exp(-0.5*z);
end;
lastm=z||true||zz||k||zzl||zzu||kn;print lastm;
create lastdata var{time true_s par_s nop_s par_l par_u nop_l nop_u} ;
append from lastm;
close;
quit;
axis1 order = (0 to 1 by .05);
axis2 order = (0 to 6 by .2);
symbol1 i = stepjl c = black v=none line=3 w=1;
symbol2 i = join c = blue v=none line=1 w=2;
symbol3 i = join c = red v=none line=2 w=1;
proc gplot data=lastdata;
title 'estimate survival function';
label nop_s='survival probility';
plot nop_s*time=1 true_s*time=2 par_s*time=3
/overlay vaxis = axis1 haxis=axis2;
run;
symbol4 i = join c = black v=none line=3 w=1;
symbol5 i = join c = blue v=none line=1 w=2;
symbol6 i = join c = red v=none line=2 w=1;
proc gplot data=lastdata;
title 'estimate survival function confidence';
label true_s='survival probility';
plot true_s*time=5 nop_l*time=4 nop_u*time=4
par_l*time=6 par_u*time=6/overlay vaxis = axis1 haxis=axis2;
run;
quit;
pigtail
区间长度反映了信息量的情况,在知道方差的情形下,表明信息比较充足,区间长度比较短。非参估计与参数估计的情形也一样,因为参数估计假设有更多的信息在里面
马甸尼
[quote]引用第2楼oliyiyi于2007-05-15 21:22发表的“”:
信息多时的置信区间窄啊,同样的道理,参数的置信区间一定比非参的窄啊(参数设定正确的前提下)![/quote]
谢谢楼上的几位朋友
现在我想做的就是证明参数的置信区间不一定比非参的窄,因而说明参数设定并不正确(也就是有人设定了并不正确的数据!)
想说明这点,首先需要证明参数的置信区间不一定比非参的窄~
马甸尼
[quote]引用第8楼oliyiyi于2007-05-22 12:38发表的“”:
这个问题曾经是我的一个homework!
给你我的homework 的代码(sas9.13):
用指数分布生成生存数据(均匀分布生成删失点),分别使用非参数方法(k-m估计)和参数模型估计分布,最后画出两者的置信区间。(增加样本量到足够大时,且多次重复时,可以看成是期望的。)
/***homework for page27***/
data rcdata;
.......[/quote]
谢谢oliyiyi朋友
能帮我稍微讲讲吗,多谢!
oliyiyi
[quote]引用第10楼马甸尼于2007-05-26 15:01发表的“”:
谢谢楼上的几位朋友
现在我想做的就是证明参数的置信区间不一定比非参的窄,因而说明参数设定并不正确(也就是有人设定了并不正确的数据!)
想说明这点,首先需要证明参数的置信区间不一定比非参的窄~[/quote]
前提条件是参数模型设定正确,因为在我的模拟中,是用指数分布生成数据,所以用指数分布拟合数据得到的置信区间(置信带更确切)一般来说比非参的窄。
如果参数模型的设定不正确,当然结论就不成立了。
如果你不能确定你参数模型的设定是否合理(当然在实际问题中无法判断,只能用一些准则来比较模型,例如基于相对熵的aic,bic,dic,但模拟是可以保证设定合理的),那讨论置信区间的宽窄就没有意义了。
马甸尼
无参的时候就是用样本统计量来代替总体参数的时候。
我觉得实质上牵涉到两个问题:
其一,样本方差(标准差)与总体方差(标准差)的大小问题。
其二,在给定的显著性水平(或置信度)下Z分布和T分布的临界值比较。
首先说第二个问题,因为T分布较标准正态分布有矮峰厚尾特征(可以看看分布表或比较图),尤其是小样本情况(也就是T分布自由度较小时),这种特征更为明显,所以T临界值肯定大于Z临界值(在显著性水平较小的情况下)。也就是说如果仅仅考虑这一因素会导致无参情况下的区间长度较长。
不过还有第一个因素,这也是决定性的因素。也就是样本方差和总体方差的比较问题,之所以容易混淆在于:如果仅仅是样本平均数的标准差,肯定要小于总体标准差。但是,这里是样本标准差,样本方差和总体方差也就是我们常说的S平方和西嘎玛平方之间并不能确切的比较大小。证明我就不证了,我举一个例子,你从总体5,5,5,5,1,9中取两个数作为样本,比如你取到1,9。总体方差是5.33,样本方差是16,如果你比较幸运的取到5,5。则样本方差为0,能比较大小吗?
oliyiyi
[quote]引用第13楼马甸尼于2007-05-27 13:20发表的“”:
无参的时候就是用样本统计量来代替总体参数的时候。
我觉得实质上牵涉到两个问题:
其一,样本方差(标准差)与总体方差(标准差)的大小问题。
.......[/quote]
你考虑过样本充分大时,非参和有参的渐进差别吗?我们说的不是同一问题。
另外非参的方法,不能简单的理解为样本统计量来代替总体参数,你这样做就已经假定了数据生成的参数模型。(你这样,岂不距估计量都成了非参)
马甸尼
[quote]引用第14楼oliyiyi于2007-05-27 14:24发表的“”:
你考虑过样本充分大时,非参和有参的渐进差别吗?我们说的不是同一问题。
.......[/quote]
可能是我没想清楚吧
最近想写个论文,内容是讨论本科概率统计教材中的数据。
关于求解期望的置信区间的题目这部分里,会有一类题目,是给出样本求期望的置信区间,在方差已知和方差未知的条件下分别设问,最后得出两个结果
在经过调查之后,我发现无一例外,全部都是方差已知下的区间窄
于是我怀疑,所谓“方差已知”,“已知”的方差有可能是认为捏造的,因为很多人都有“参数的区间一定窄”的误区。
现在我想证明,“参数的区间不一定窄”,以及想得出“参数的区间窄”这一事件的概率
谢谢