winthander
请教大家:
对于一串比例数据,如何检验是不是服从二项分布?
winthander
怎么没人回我?自己顶一下
wumaths
splus中我告诉你,
你的数据如果存储到向量x中
使用ks检验
ks.gof(x,distribution='binomial')
bjt
In R:
ks.test(x,y="name")
或
假设检验,直接计算根据样本计算 p_value
winthander
但是好像要指定参数值,是不是只要是(0,1)之间的比例数值,误差都是二项分布?
bjt
[quote]引用第4楼winthander于2007-12-12 12:51发表的“”:
但是好像要指定参数值,是不是只要是(0,1)之间的比例数值,误差都是二项分布?[/quote]
这句话没看懂
winthander
> x<-c(0.2,0.3,0.5,0.6,0.8,0.5,0.1,0.3,0.6)
> ks.test(x,y="binomial")
Error in y(sort(x), ...) :
link "sort(x)" not available for binomial family; available links are ‘logit’, ‘probit’, ‘cloglog’, ‘cauchit’, ‘log’
In addition: Warning message:
In ks.test(x, y = "binomial") : cannot compute correct p-values with ties
我想应该是设置参数值吧,在splus里面,ks.gof(x,distribution="binomial",0.5)是可以的。
另外我想问的是对于模型的因变量是大于0小于1的比例数据的,是不是可以不经过检验就可以认为它的误差结构是服从二项分布的?
yihui
ft,你这数据怎么可能服从二项分布?最起码应该都是整数吧?
因变量若是比例数据,并不能保证误差是什么结构。通常广义线性模型也并不假设误差项怎么样,所有的理论都是基于因变量的分布的(不必按照经典回归的套路去思考)。
winthander
但是我在看到的一篇综述文章中提到:举个例子,有两个物种,计算他们每一年的比例,然后用这个比例对年份回归,他提到是用GLM模型,而且用的family是binomial,假如这个因变量误差不是二项分布的话就不能用这个familyl了,我就是想知道选择binomial时应该怎么交代清楚
winthander
上面例子是第一个物种在两个物种中的比例
yihui
首先你似乎没有理解什么是二项分布,或者说它的分布形式(服从二项分布的数据应该是什么样的,是这样的比例数据么),其次做Logistic回归一般也不会有谁检验因变量是否服从二项分布,原因是没办法检验,因为你没法设立Null hypothesis,关键是二项分布的p你打算设置为多少?假设总体p=0.1?0.2?为什么?
另外,我上面说过了,GLM假设的对象不是误差项,打一开始就不是这么回事,不要把它和经典回归理论混起来了。
winthander
在the r book这本书里的GLM模型部分作者说family的选择是根据因变量的误差结构来定的,不然不同类型的family应该由什么决定呢?选择一个family类型总是需要一个理由的吧,就是因为我上面列举的例子不是二项分布类型的,所以才感觉迷惑,作者为什么选择binomial作为family?
rtist
people may use different parameterizations.
怎么可能
确实很诡异