Statistics with R 第7章

y.luo

大力支持！

dagga

赞一个

ilikemath

谢谢各位支持，我会继续努力。

ilikemath

7.2.10 威布尔分布（Weibull）

威布尔分布是指数分布的一个推广，此时“失效率”（正确的说法是“危险率”——在生存分析中会经常遇到）不是一个常量。用它来模型化某个机器生存时间（没有失败的时间）。（这里“失效率”就是随着机器使用年代的增加，出现问题的概率。）

密度函数的形式为：exp(-a t^b).

%G

curve(dexp(x), xlim=c(0,3), ylim=c(0,2))

curve(dweibull(x,1), lty=3, lwd=3, add=T)

curve(dweibull(x,2), col='red', add=T)

curve(dweibull(x,.8), col='blue', add=T)

title(main="Weibull Probability Distribution Function")

legend(par('usr')[2], par('usr')[4], xjust=1,

c('Exponential', 'Weibull, shape=1',

'Weibull, shape=2', 'Weibull, shape=.8'),

lwd=c(1,3,1,1),

lty=c(1,3,1,1),

col=c(par("fg"), par("fg"), 'red', 'blue'))

%--

7.2.11伽玛分布（ Gamma ）

它是独立的指数分布随机变量的和，也是指数分布的推广，通常用来描述生存时间（例如，一个可靠机器（的生存时间），如果遇到三个连续的问题就被程序化停止，那么每一个问题（出现的时间）都可以用指数分布律来描述）。

泊松过程中到达时间的分布就是伽玛分布。

%G

curve( dgamma(x,1,1), xlim=c(0,5) )

curve( dgamma(x,2,1), add=T, col='red' )

curve( dgamma(x,3,1), add=T, col='green' )

curve( dgamma(x,4,1), add=T, col='blue' )

curve( dgamma(x,5,1), add=T, col='orange' )

title(main="Gamma probability distribution function")

legend(par('usr')[2], par('usr')[4], xjust=1,

c('k=1 (Exponential distribution)', 'k=2', 'k=3', 'k=4', 'k=5'),

lwd=1, lty=1,

col=c(par('fg'), 'red', 'green', 'blue', 'orange') )

%--

%G

n <- 500

x1 <- rexp(n,17)

x2 <- rexp(n,17)

x3 <- rexp(n,17)

x <- x1 + x2 + x3

# Simpler, but less readable:

# k <- 3

# x <- drop(apply( matrix( rexp(n*k,17), nr=n, nc=k ), 1, sum))

y <- qgamma(ppoints(n),3,17)

plot( sort(x) ~ sort(y), log='xy' )

abline(0,1, col='red')

title("Comparision: gamma distribution and sum of exponential r.v.")

%--

可以参考:

http://www.math.uah.edu/statold/special/special3.html

7.2.12 Beta 分布

在许多参考书上都可以看到这个定义（不太具有启发性，稍后我将给出更直观的定义）：

如果X和T 是独立的随机变量，分别服从参数为(a,r)和(b,r)的Gamma分布, 则X/(X+Y)服从参数为(a,b)的Beta分布。

%G

curve( dbeta(x,1,1), xlim=c(0,1), ylim=c(0,4) )

curve( dbeta(x,2,1), add=T, col='red' )

curve( dbeta(x,3,1), add=T, col='green' )

curve( dbeta(x,4,1), add=T, col='blue' )

curve( dbeta(x,2,2), add=T, lty=2, lwd=2, col='red' )

curve( dbeta(x,3,2), add=T, lty=2, lwd=2, col='green' )

curve( dbeta(x,4,2), add=T, lty=2, lwd=2, col='blue' )

curve( dbeta(x,2,3), add=T, lty=3, lwd=3, col='red' )

curve( dbeta(x,3,3), add=T, lty=3, lwd=3, col='green' )

curve( dbeta(x,4,3), add=T, lty=3, lwd=3, col='blue' )

title(main="Beta distribution")

legend(par('usr')[1], par('usr')[4], xjust=0,

c('(1,1)', '(2,1)', '(3,1)', '(4,1)',

'(2,2)', '(3,2)', '(4,2)',

'(2,3)', '(3,3)', '(4,3)' ),

lwd=1, #c(1,1,1,1, 2,2,2, 3,3,3),

lty=c(1,1,1,1, 2,2,2, 3,3,3),

col=c(par('fg'), 'red', 'green', 'blue',

'red', 'green', 'blue',

'red', 'green', 'blue' ))

%--

如果X1,X2,...,Xn是独立的随机变量，服从均匀分布U(0,1)，则 max(X1,X2,...,Xn)服从参数为(n,1)的beta分布。

%G

N <- 500

n <- 5

y <- drop(apply( matrix( runif(n*N), nr=N, nc=n), 1, max ))

x <- qbeta(ppoints(N), n, 1)

plot( sort(y) ~ x )

abline(0,1, col='red')

title("Order statistic and Beta distribution")

%--

其它的次序统计量（X1,X2,...,Xn中第k大元素）也服从beta分布（参数不同而已）。

%G

N <- 500

n <- 5

k <- 3

y <- drop(apply( matrix( runif(n*N), nr=n, nc=N), 2, sort )[n-k,])

x <- qbeta(ppoints(N), n-k, k+1) # Exercice: Where do those

# coefficients come from?

plot( sort(y) ~ x )

abline(0,1, col='red')

title("Order statistics and Beta distribution")

%--

ilikemath

%G

# I admit it: I found the coefficients above by trial-and-error...

op <- par(mfrow=c(5,5), mar=c(0,0,0,0) )

for (i in 1:5) {

for (j in 1:5) {

plot( sort(y) ~ qbeta(ppoints(N), j, i), xlab='', ylab='', axes=F )

abline(0,1, col='red')

box()

text( (par('usr')[1]+par('usr')[2])/2,

(par('usr')[3]+par('usr')[4])/2,

paste(j,i),

cex=3, col='blue' )

}

}

par(op)

%--

可以参见:

http://www.math.uah.edu/statold/special/special9.html

关于Beta分布的另一个启发来自于贝叶斯，“贝叶斯”思想是：如果我们感兴趣的是某些参数（比如说，抛一枚硬币时出现“背面”的概率），我们并不想得到单个的具体值——相信它是错的——我们更想得到的是整体的分布，例如，“出现“背面”的概率看起来服从一个均值0.4、标准差0.1的高斯分布”（这里，你应该站起来大声说：不可能是高斯分布，肯定是取值于[0,1]的某个分布！)

让我们抛一枚硬币，尝试寻找“背面”出现的概率，我们不知道任何关于这个概率的先验信息。如果想给这个概率赋值，可以是“0.5”，但是用一个分布来描述更准确：“先验概率”用[0,1]上的均匀分布来描述(只知道这个概率取值于[0,1])。意思是：我们什么也不知道，没有任何信息可以为这个概率提供参考，如果我们抛硬币10次，出现7次背面3次正面，我们就有更多的信息，并且我们可以更新关于p的概率分布，它跟下式成比例：

p^7 * (1-p)^3.

这就是参数为(8,4)的beta分布。

%G

curve(dbeta(x,8,4),xlim=c(0,1))

title(main="posterior distrobution of p")

%--

用两步来完成这个试验：以一个均匀分布的先验信息开始，抛一些硬币，可以得到一个beta分布的后验信息。如果你再抛更多的硬币，你可以修正这个beta分布为另一个beta分布（第一次抛硬币得到的后验beta是第二次抛掷的先验信息）。所以，人们在使用贝叶斯方法估计概率（或任何有界量）时，经常使用beta分布作为先验分布。

更简单直观地说，人们可以用beta分布来模拟区间 [0,1]上的单峰的、或多或少不对称的连续分布,作为一个结论，你可以用这个分布模拟任何有界的量。

%G

curve(dbeta(x,10,10), xlim=c(0,1), lwd=3)

curve(dbeta(x,1,1), add=T, col='red', lwd=3)

curve(dbeta(x,2,2), add=T, col='green', lwd=3)

curve(dbeta(x,5,2), add=T, col='blue',lwd=3)

curve(dbeta(x,.1,.5), add=T, col='orange')

legend(par('usr')[2], par('usr')[4], xjust=1,

c('B(10,10)', 'B(1,1)', 'B(2,2)', 'B(5,2)', 'B(.1,.5)'),

lwd=c(3,3,3,3,1), lty=1,

col=c(par('fg'),'red','green','blue','orange'))

title("A few beta probability distributions")

%--

Beta分布另一种表现形式是：“仅仅”极大似然，而没有其它贝叶斯思想。条件是相同的：抛一枚硬币，观察出现哪个面。假设出现“背面”的概率是p，如果我们得到7次背面3次正面，可以把7看作是参数为 (10,p)的二项分布随机变量的值，在给定p的条件下，观察到7次背面3次正面的概率是(与下式有关)

L(p) = p^7 * (1-p)^3.

这个概率叫做"likelihood"似然 (更一般地, 参数p的似然"likelihood" 是给定p的条件下实际观察结果出现的概率 ——它是p的函数，通常用它来计算“最合适的p值”，也就是，p的极大似然估计值)。与前面类似，它跟Beta分布的密度函数成比例。

我们说二项分布和beta分布具有密切关系：通过限制参数和变量的作用，他们的密度函数具有相同的形式。

7.2.13狄利克莱分布 ( Dirichlet distribution )

它是Beta分布在多维情况下的推广，广泛采用了贝叶斯模型：Beta分布可以用来模型化参数为p的二项分布随机变量；类似的，狄利克莱分布可以用来模型化参数为多个概率的多项分布。

library(gtools)

?rdirichlet

library(bayesm)

?rdirichlet

library(MCMCpack)

?Dirichlet

TODO

如果 X1,...,Xn 是独立的服从Gamma 分布的（随机变量），则

(X1,...,Xn)/(X1+...+Xn) 服从Beta 分布。

7.2.14指数分布族（Exponential distributions）

这里讲到的大多数分布都属于指数分布族——他们在一些理论结果中起着非常重要的作用，但是他们的定义不是那么容易理解的：

f(y, theta,phi) = exp { [y theta - v(theta)]/u(phi) + w(y,phi) }

TODO: Explain?

No.

ilikemath

每个分布都配有精彩的图片，大家可以去看原文

wumaths

喜欢这段Beta分布的解释。不错

biogene

太感谢了，牛人啊！

distar

厉害！

distar

有谁有翻译第7章之前的吗？

这本书太棒了！

lwjmdj

能不能做个电子书发上来呢？？

danny_liu

如果说数学是物理，那么统计就是工程，千万不能用学数学的方法学统计！

这句话说的太好，太对了：）

xingzhaoh

版主，看到你的翻译很有启发，你可以把其它的翻译发给我吗？还有这本书中的数据从什么地方下载呀？你有的话可以把Statistics with R中的数据发给我吗？

xingzhaoh@163.com，非常感谢

maershenliang

太漂亮了，谢谢楼主