• 综合主站
  • 从线性模型到广义线性模型(1)——模型假设篇

文章总体不错。不过既然标题是“模型假设篇”,那么不妨将模型假设讲得更细致一些。比如指数散布族这是广义线性模型的命根子,怎么能“限于篇幅不作介绍”呢?统计之都的文章永远都不会“限于篇幅” :lol: 这四个字只是纸质刊物的借口而已。

还有标准联接函数也一样,它有什么优点,我觉得也应该展开写一写。
[未知用户] 其实啊,是因为指数散布族、标准联接函数等一些说明、推导需要大量大量大量的公式。我有些发怵@@。。。
咳咳 请修正一下永久链接里的小错误 ..
[未知用户] 并不是说把推导什么的都放上来,那样不如干脆推荐读者看书好了。把指数分布族的形式写出来的话,这件事情会明了许多,比如为什么Logistic回归经常用logit联接函数(我见过一些民科的吐血解释)、为什么那个散布参数是个“讨厌参数”(极大似然估计可以扔掉它不管),等等。更深层的意义在于,广义线性模型不是简单的推广分布族,它是另一种思想。普通的回归的中心是加性误差,而GLM则是把模型分成两个组成成分来考虑,一个系统成分(自变量线性组合),一个随机成分(因变量的概率分布),二者用连接函数连起来。你可以说GLM是普通回归的推广,但我觉得这样有点低估它在统计建模思想上的突破。一己之见,供参考,不一定对。
对连接的方式和因变量的分布有所限制只是因为极大似然估计(包括其方差)有近似的加权最小二乘的形式吧?这样做迭代什么的会方便些。但我感觉这些都不是必要的吧,因为GLM的估计和检验都是建立在极大似然估计和似然比检验的基础上的,理论上连接和分布都可以任意吧?这方面我没细想过,不知道是不是这样。
关于GLM的思想,我感觉很重要的一点就是把传统回归中“误差”的概念进行了升华。还记得当初学线性回归时书里提到了Logistic回归,我当时就郁闷,这回归怎么没有误差项呢?怎么没有误差项呢??怎么能没有误差项呢???
后来才意识到,在传统回归中,我们有意无意地弱化了因变量分布的概念,而只是说误差如何如何,就好像因变量特别不情愿成为一名随机变量似的,它之所以是随机的全是因为那个误差强加到它身上了。不知是不是我个人的感觉,我会潜意识地认为,所谓的因变量其实是指那个期望,而不是期望加上误差后的随机变量。举个例子来说,我们会这样报告回归的结果:给我一个自变量,我就能给出因变量的期望值,以及它的误差大小。这句话的潜台词是,因变量本来就应该是那个期望值的,只是因为误差的影响,才使得它实际的取值有所偏离。
但GLM不这么认为,它一开始就要你意识到,“根本不存在什么误差”,因变量本身就是随机变量。当你建完模后,你能得出的结论是,给我一个自变量,我就能给出因变量的分布。显然说分布如何如何比说误差如何如何更符合统计思维。(当然,传统回归的结果实际上也给出了分布,但我们下意识地忽略了这一点)
总之我感觉,传统回归中我们的思维一直是围绕误差来的,而到GLM中就应该转向直接关注因变量的分布。
[未知用户] 啊。。那个链接,每回我在18和how之间加上一个/,保存之后都会消失,成为现在这个样子18how。。不知何故
[未知用户] 初识GLM,理解很肤浅。。。写这个东西的目的之一就是与各位交流、学习。显然从益辉兄和怡轩的回复中,获益不少。待我细细想想之后,再修改修改,或是另写一篇。
[未知用户] 鼓励大胆尝试。对于作者来说,若能从读者的讨论中受益,那将是你写文章的最大回报。
[未知用户] 特殊符号会被去掉或替换为-。文章链接不必加上日子,有月份就够了。
“根本不存在什么误差”,因变量本身就是随机变量。当你建完模后,你能得出的结论是,给我一个自变量,我就能给出因变量的分布。

我理解是这样的,在现有自变量的信息下,因变量有一个条件期望。我们通常说的误差,就是因变量这个随机变量的实现值跟它的条件期望的差……
[未知用户] 嗯,我做抗病遗传评估的时候,就会用到logit,但就是不知道为什么这样做,以及优缺点。作者千万不要太监一定要写完,写好。
最近正好在做logistic 回归分析,用的正好是GLMM 的模型。据说为啥比如为什么Logistic回归经常用logit联接函数(我见过一些民科的吐血解释)?举一个例子,比如在第一个群体中不患病的频率为0.6,而另一个群体中不患病的群体频率0.9。如果有一个药物,它能降低患病的个体数。从直观上理解,使得从0.6上升到0.65 所左右的效率远远是低于从0.9上升到0.95的。另外,在第一个群体内,它的方差是0.6*0.4=0.24,而第二个群体内它的方差是0.09。随之期望值的改变,方差不等。这就是用一般的转换方程所不能解决的问题吧。
[未知用户] glm引入了方差函数,正是用于建立方差和均值的关联,而不再限定于正态假设下的同方差性。
16 天 后
区看一下新的计量经济学教材,x现在都被看成随机的了
[未知用户] 给个例子呗,我去看看计量如何处理随机的X。但愿不是用那“万能”的结构叉叉模型。

个人认为把X当随机变量将会给统计模型带来魔鬼……
[未知用户] 随着期望改变,方差也跟着改变,这对指数分布族中的很多分布都适用(除了正态分布),比如Poisson、Gamma等等,方差是期望的函数。这是因变量的分布的问题,和用什么联接函数无关。

为什么用Logit联接函数,我是觉得这个问题不必过度解释,找理由找着找着容易变得牵强。Logit联接函数是二项分布对应的正则联接函数(Canonical),本来是图个数学性质方便而已。

你说的患病率解释当然有一定道理,但感觉还是有点“事后解释”的味道,我不知道它是否真的那么直观。你说的“效率远远低于”大概是根据优比(Odds Ratio,OR)得来的,前者OR上升了1.24倍,后者上升为2.11倍。但这一定是用logit的证据吗?用log[p^2/(1-p)]行不行呢,它也有这个性质;当然可以,没有人规定联接函数一定得长什么样子。我这显然有点狡辩的意思,但本意是统计里面很多东西本不应该成为金标准,而在流传过程中无意成为了标准,并且人们给这些标准添加越来越多的解释,就像心理学上的自我暗示、自我说服一样。
[未知用户] 嗯,写这个文章前,我大致翻看了一些国内作者写的计量教材,多数都把x写成X,认为随机变量。但是我又翻看了几个国外作者写的教材,当然是统计学方面的,都把x写成x,即认为是fixed constant,而不是随机变量。把x看成随机的,我不知道原因何在。也许您能给我指点一二。