看了 http://cos.name/view.php?tid=48&id=86 之后想留言,可是那里不让留了,就贴在这儿了。



bootstrap的思想并不是再抽样,而是plug-in principle;再抽样仅仅是实现这个思想的一种手段。所以bootstrap也并不一定非要抽样B次,只要可以plug-in,有时候一次也不用抽就可以得到精确结果。





但是不可否认,样本的重复利用的确是一个incredibly amazing的方法,而且经常counter-intuitive。最难理解的(对我来说)就是,信息都蕴含在样本中,再抽样究竟能提不提供样本之外的新的信息;如果不能,怎么抽得到的都是原来样本里面的信息;如果能,新信息从哪儿来?
5 个月 后
I think the information contained in a sample is not always fully exploited by a particular statistic. That is, a statistic typically only uses part of information in the data and the principle of data-reduction is one of such examples. To use bootstrap (maybe other resampling methods as well), we have to impose some extra assumptions, such like the sample (the data at hand, so to speak) is representative and informative of the population so that we can treat the former as the latter.



Not quite clear what do you mean by the statement that the bootstrap is mainly a plug-in method. Would you make it more clear and detailed? Thanks.
I don't think so, as bootstrap often works on complete sufficient statistics too. So it's not that the original statistic always loses information that allows bootstrap to exploit further.



It's still counter-intuitive to me. My current understanding (subject to change in the future) is that we often make reasonable assumptions that give us the extra-information, so that bootstrap often works by using the information in the assumptions.



For the plug-in principle, see Efron's review: http://www.jstor.org/view/08834237/sp040007/04x0072t/0
4 天 后
Well, "sufficient" just means that the statistic contain enough information for the purpose of point estimation of the parameter of interest. It does not say that all information is used up. Neither it prevents from exploiting other information contained in the sample.
This is also point that I was thinking of when I was writing the last post.

It sounds reasonable, but it didn't completely persuade me to believe it at the time

as I could not figure out just what is the "other" information. Are we treating the sd of

some statistic as a new parameter to estimate? Probably.
[quote]引用第0楼rtist2007-03-11 11:28发表的“关于bootstrap的思想”:



新的信息从哪来



.......[/quote]



我也一直觉得这个问题很玄乎。 从bootstrap的词源上看,落水者解鞋自救,“自助”,类比monte carlo,monte carlo是通过实验来发现实际问题的结构,因此叫模拟,但这种模拟是基于假设的模型以进行的。 bootstrap如果与此类比,就不是基于假设的结构,而是用真实的样本来进行模拟了。 这样也许会提供一些新的信息,从大量重复中,发现一些隐藏的结构。
In the Monte Carlo simulation, the true data generating process is specified while in the bootstrap we assume the sample can be treated as the population from which the sample was drawn. I think "the other information" comes from this assumption, which may be strong though.
Actually, I just read one paper about bootstrap. It says that bootstrapping is to sample from EDF.   However, MC is to sample from real distribution. I have no idea why bootstrapping is so powerful. It looks I need to read more about it. My teacher says Jun Shao's book is a good one.
我那篇小文章中确实有一个小错误,Bootstrap抽的样本量不一定非要和原来相同,甚至有些情况下抽的样本量必须和n不同(比如o(n)等)



plug-in principle我还不太清楚,不过看楼上的一些帖子倒是又提出了一个新问题,即:新的信息从哪里来?



我觉得Bootstrap首先要认为现在手头的样本的代表性是足够好的,不然对一组差样本再怎么Resample都没用;Bootstrap真的提出了“新”的信息么?我觉得没有,至少在哲学角度上是这样:)
天啊,我们的观点好像互换位置了。。。呵呵
刚才重新翻了翻笔记和课本,整理一下思路:



假定x1,...,Xn为iid随机变量,并有分布函数F。我们关心关于该分布的某个参数t=t(F)。



plug-in原则的最常见的应用,就是用t'=t(Fn)来作为参数t的一个估计值,这里经验分布函数Fn被用来替换参数t中的真正的分布函数F。这个原则的极为简单的例子就是用样本均值来作为期望的估计值。



假定我们现在同时关心t'=t(Fn)的某一特征,比如关心它的偏倚b,根据定义可得

b=E(t')-t=E(t(Fn))-t(F)=integral t(Fn) d F -t(F).



注意这里t是已知函数、F是未知函数,b是一个未知的常量,也是分布函数F的另外一个特征——换句话说,b是另外一个我们所关心的参数(类似于我在4楼所说的最后一句话)!



既然b是另外一个参数,那么就可以像前面估计参数t那样来估计它——还像以前一样用plug-in原则,用经验分布函数Fn替换真正的分布函数F,即用

b'=integral t(Fn) d Fn - t(Fn)

作为b的一个估计值。这里F在上面b公式里出现两次,所以两个F都用Fn所代替。

这个b'就是b的bootstrap偏倚估计值!可见,bootstrap在原则上没有任何新东西——不过就是用样本估计量替换了真实量(即经验分布替换真实的分布)!plug-in原则用在参数t上得到估计量,用在另外一个参数b上就叫做bootstrap估计——换汤不换药,改了个名字而已!





那现在还有一个问题,b'中的那个积分怎么求?如果问题简单的话,显然这个积分是可以求出解析解的。如果真的可以求出来这个解析解,那么得到的b'就是精确的bootstrat估计。可是通常情况下这个积分很难求,所以需要用其他方法来近似。

近似的方法就是Monte Carlo!为什么可以用Monte Carlo呢?Monte Carlo不是假定我们知道真正的数据生成机制、然后根据该机制随机生成新的数据来近似的么?如6楼、7楼对此均有论述。但是这里的trick是Monte Carlo应用在什么上!我们现在想要的仅仅是得到b' 的近似值,而b' 的公式里面的出现的是 d Fn,而不是像b的公式里面出现的dF。也就是说,现在的Monte Carlo所要随即模拟的数据是来自于Fn的——我们恰恰知道Fn是什么,因为Fn不过是数据X1,...,Xn的一个函数,而观测数据都已经已知了(conditioned upon)。所以,只要从Fn生成大量的随机数据,平均之后我们就也得到了b' 中那个积分的近似值(大数定律)。这个通过Monte Carlo进一步近似之后的估计值b'' 就是我们最最常见的bootstrap的形式!那么怎么从Fn生成大量数据呢?不用我多解释了,大家应该可以看出来这就是所说的再抽样——Fn就是一个多项分布的分布函数,有替换的再抽样就是从多项分布里面模拟数据!



可见,通常说的bootstrap其实不是真正的bootstrap,而仅仅是bootstrap的一个Monte Carlo近似值。



说到此,常见的bootstrap应该比较容易理解了——它包含两层内容,一个是使用plug-in原则,即用样本替换真值来得到参数估计;另一个就是通过大数定律让Monte Carlo模拟来得到plug-in估计值的近似值。所以说bootstrap的主要思想就是plug-in原则,次要思想是大数定律,应用过程是Monte Carlo,Monte Carlo的表现形式才是再抽样——如顶楼所说,bootstrap的思想绝对不是再抽样。



顶楼所说的bootstrap有时候可能一次再抽样都不用,意思就是说个别情况下那个积分可以求出解析解,所以根本用不着Monte Carlo模拟,也就不用什么再抽样。





话说回来,回到最初的问题——新信息从哪儿来?现在看,这好像是个似是而非的问题,问题本身就不甚合理。如3楼所说的,最开始的时候,我们关心的是F的某一参数t,而后来我们关心的另外一个参数b!对于不同的参数来说,无所谓信息量的大小了。所以表面上的新信息其实是数据所包含的关于另一个新参数的信息,而不是对于旧参数的新信息。





按照这个理解来看,bootstrap估计的优劣,也取决于两个方面,一个是plug-in原则是否足够合理,另一个就是Monte Carlo模拟近似的优劣程度。任何一个近似不好都会降低bootstrap估计效果。这也就是在1~3楼里面我们说过的新的assumption。这两个必备的assumption都要近似于满足,才能证明bootstrap的理论性质。
[quote]引用第10楼rtist2007-08-17 13:00发表的“”:

刚才重新翻了翻笔记和课本,整理一下思路:



.......意思就是说个别情况下那个积分可以求出解析解,所以根本用不着Monte Carlo模拟,也就不用什么再抽样。

[/quote]



有很多简单的问题都有解释解的,但还是要用Monte Carlo,可见Monte Carlo不是找不到解释解时的替代物。



刚刚看到一句话: Bootstrap的优点在于,我们不必知道数据的生成过程,这一点显著地有别于Monte Carlo
[quote]引用第11楼statax2007-08-17 09:22发表的“”:





有很多简单的问题都有解释解的,但还是要用Monte Carlo,可见Monte Carlo不是找不到解释解时的替代物。



刚刚看到一句话: Bootstrap的优点在于,我们不必知道数据的生成过程,这一点显著地有别于Monte Carlo[/quote]

No. 这个太矛盾了,都知道了解析解了,还要什么近似呢?

这里的Monte Carlo是从Fn模拟数据,Fn不是数据生成过程,F才是。

这里要conditioning on data的。

希望楼上再仔细看一遍我我所写的意思。
12 天 后
[quote]引用第10楼rtist2007-08-17 13:00发表的“”:

刚才重新翻了翻笔记和课本,整理一下思路:



假定x1,...,Xn为iid随机变量,并有分布函数F。我们关心关于该分布的某个参数t=t(F)。



plug-in原则的最常见的应用,就是用t'=t(Fn)来作为参数t的一个估计值,这里经验分布函数Fn被用来替换参数t中的真正的分布函数F。这个原则的极为简单的例子就是用样本均值来作为期望的估计值。

.......[/quote]



精彩啊!最近又看了一下Efron的那本书,感觉有收获了不少啊!
3 年 后

请问各位大侠,如果我想回归一个疲劳寿命方程,并且已知疲劳寿命服从二参数的威布尔分布,如何将bootstrap方法加入我的研究?是不是疲劳方程中的个参数可以应用bootstrap的方法快速求出来?