• 综合主站
  • 翻译:常见统计检验的本质都是线性模型(或:如何教统计学)

Cloud2016 终于下载下来了,多谢分享,列入计划看看。另外,这篇贴子,和我上次的吐槽有些关系啊~, 哈哈 ~~ 上次因为英文版的,看起来费劲,这次看了中文版,感触颇深啊。

话说,编辑部啥时候可以发一发回归分析或说方差分析的SS(离差平方和)与Type的关系啊?哈哈~~

其实我一直有一个疑问,到底回归分析是方差分析的特例还是方差分析是回归分析的特例呢。。。

    R 内置了很多常见检验,包括文中提到但没有展开说的检验

    apropos("\\.test$")
     [1] "ansari.test"          "bartlett.test"        "binom.test"           "Box.test"            
     [5] "chisq.test"           "cor.test"             "fisher.test"          "fligner.test"        
     [9] "friedman.test"        "kruskal.test"         "ks.test"              "mantelhaen.test"     
    [13] "mauchly.test"         "mcnemar.test"         "mood.test"            "oneway.test"         
    [17] "pairwise.prop.test"   "pairwise.t.test"      "pairwise.wilcox.test" "poisson.test"        
    [21] "power.anova.test"     "power.prop.test"      "power.t.test"         "PP.test"             
    [25] "prop.test"            "prop.trend.test"      "quade.test"           "shapiro.test"        
    [29] "t.test"               "var.test"             "wilcox.test"         

    不知论坛里有没有人有兴趣翻出源文档介绍 R 内置的检验都对应怎样的线性模型、公式、理论、适用范围?能来10个人就好了,一人分几个,把这个问题彻底搞清楚!

    我在文末提及的线性模型(我认为的线性模型)至少包含王松桂、史建红、尹素菊和吴密霞编著的《线性模型引论》对线性模型的定义。而我认为的线性的含义是预测 predictor (即条件期望)是协变量(包括可观测的,不可直接观测的)和模型参数(不算超参数)的线性组合。所以 LM、GLM、LMM、GLMM、GAM、GAMM 等都是线性模型,高维、低维也都是线性模型。文中有些检验已经破坏经典线性回归模型的假设(常称之为高斯---马尔科夫假设),比如残差同方差假设,残差独立假设,破坏之后至少对应到线性混合效应模型 LMM,文中迟迟不正面提及混合效应模型,我可能是因为随机效应不太好解释,光别名就有一堆,而且曾被大佬 Andrew Gelman 发文吐槽过,它像黑洞一样,看不见、摸不着但是又真实存在!此处,可以去看杨灿老师的文章 --- 昔日因,今日意

    我认为的统计模型就两大类,一类是线性、一类是非线性,下面就有熟悉的线性模型,还有不熟悉的非线性模型

    Y=β1X1+β2X2+ϵ(1)Y = \beta_1 \cdot X_1 + \beta_2 \cdot X_2 + \epsilon \quad (1)
    Y=β1X1+β2X2+ϵ(2)Y = |\beta_1 \cdot X_1 + \beta_2 \cdot X_2| + \epsilon \quad (2)
    Y=β1X1+β2X2+ϵ(3)Y = |\beta_1| \cdot X_1 + |\beta_2| \cdot X_2 + \epsilon \quad (3)
    Y=β12X1+β22X2+ϵ(4)Y = \beta_1^2 \cdot X_1 + \beta_2^2 \cdot X_2 + \epsilon \quad (4)
    Y=exp(β1X1+β2X2)+ϵ(5)Y = \exp(\beta_1 \cdot X_1 + \beta_2 \cdot X_2) + \epsilon \quad (5)
    Y=β1sin(X1)+β2cos(X2)+ϵ(6)Y = \beta_1 \cdot \sin(X_1) + \beta_2 \cdot \cos(X_2) + \epsilon \quad (6)
    Y=sin(β1X1)+cos(β2X2)+ϵ(7)Y = \sin(\beta_1 \cdot X_1) + \cos(\beta_2 \cdot X_2) + \epsilon \quad (7)
    Y=β0+β1X++βk1Xk1+ϵ,k=1,2,(8)Y = \beta_0 + \beta_{1}\cdot X + \cdots + \beta_{k-1}\cdot X^{k-1} + \epsilon,\quad k = 1, 2, \cdots \quad (8)

    大家可以思考下,哪些是线性模型,哪些是非线性模型?

    另外一个值得注意的是文中原作并没有说完全等价或者等同、等于之类的话,在某些简单的情况可能是完全等价,大多数情况是近似,有些少量样本就近似得很好了。

    或许,讲解统计检验方面的问题,还需要让大家看到“做不做统计检验”到底有什么不同。比如,知道"X,Y 相关或者不相关"又怎么样?与不知道“他们是否相关”有什么样的不同?回答这样的问题,不能简单的讲,这里假阳性,那里假阴性,要和真正的科学发现、实际生产结合在一起。

    15 天 后

    我觉得这篇文章的意义不仅在于解释了检验和线性模型的数学等价性,更在于指出了很多检验问题本质上都是回归 —— 可以放到回归的框架下来理解和求解。隐藏含义就是,回归问题值得重点研究。

    当然,检验作为一大类独立的方法,存在有很多独特的问题,比如p值校正,值得独立研究(很多解法也都可以在回归中找到对应,或者扩展到回归上)。

    22 天 后

    很好的文章,从来没见过的思路。感谢译者的工作。
    另外请看一下6.1.4小节的模型c的结果为何未给出?因为它和模型b是一样的吗?

      whymath 谢谢指出来,结果其实是给出来的,只是没有整合到表格里,你展开表格下 Show R Output 可以看到

      1 年 后

      下边的老文章阐述了线性模型和方差分析两个"传统"的缘起和其等价性,并讨论了使用线性模型"传统"做数据分析的优势;可以在一定程度上帮助理解这篇译文背后的"所以然"。

      Cohen, J. (1968). Multiple regression as a general data-analytic system. Psychological Bulletin, 70(6, Pt.1), 426–443. https://doi.org/10.1037/h0026714

      10 个月 后

      @yihui 歪个楼,blogdown 是否可以原生支持代码块的折叠,这个功能对于可重复性的 R Markdown 博文应该是非常实用的。