翻译：常见统计检验的本质都是线性模型（或：如何教统计学）

COSeditor · 2019年9月23日

https://cosx.org/2019/09/common-tests-as-linear-models/

Cloud2016 · 2019年9月30日

震惊！！今天偶然翻出一本书

Mangiafico, S.S. 2016. Summary and Analysis of Extension Program Evaluation in R, version 1.18.1. <http://rcompanion.org/handbook/>
书籍 PDF 版 <http://rcompanion.org/documents/RHandbookProgramEvaluation.pdf>

详细介绍了各种参数和非参数检验在 R 语言中的实现，书籍长达 775 页，就差没介绍各个检验的数学表述了！

Jonie_Y · 2019年10月1日

Cloud2016你震惊的是编辑部的贴子还是你找的这本书啊。

Cloud2016 · 2019年10月1日

Jonie_Y 震惊翻出的这本书

Jonie_Y · 2019年10月2日

Cloud2016 终于下载下来了，多谢分享，列入计划看看。另外，这篇贴子，和我上次的吐槽有些关系啊~, 哈哈 ~~ 上次因为英文版的，看起来费劲，这次看了中文版，感触颇深啊。

话说，编辑部啥时候可以发一发回归分析或说方差分析的SS（离差平方和）与Type的关系啊？哈哈~~

其实我一直有一个疑问，到底回归分析是方差分析的特例还是方差分析是回归分析的特例呢。。。

Cloud2016 · 2019年10月3日

Jonie_Y 方差分析是回归分析的特例

Cloud2016 · 2019年10月4日

R 内置了很多常见检验，包括文中提到但没有展开说的检验

apropos("\\.test$")

 [1] "ansari.test"          "bartlett.test"        "binom.test"           "Box.test"            
 [5] "chisq.test"           "cor.test"             "fisher.test"          "fligner.test"        
 [9] "friedman.test"        "kruskal.test"         "ks.test"              "mantelhaen.test"     
[13] "mauchly.test"         "mcnemar.test"         "mood.test"            "oneway.test"         
[17] "pairwise.prop.test"   "pairwise.t.test"      "pairwise.wilcox.test" "poisson.test"        
[21] "power.anova.test"     "power.prop.test"      "power.t.test"         "PP.test"             
[25] "prop.test"            "prop.trend.test"      "quade.test"           "shapiro.test"        
[29] "t.test"               "var.test"             "wilcox.test"

Cloud2016 · 2019年10月4日

不知论坛里有没有人有兴趣翻出源文档介绍 R 内置的检验都对应怎样的线性模型、公式、理论、适用范围？能来10个人就好了，一人分几个，把这个问题彻底搞清楚！

Cloud2016 · 2019年10月5日

我在文末提及的线性模型（我认为的线性模型）至少包含王松桂、史建红、尹素菊和吴密霞编著的《线性模型引论》对线性模型的定义。而我认为的线性的含义是预测 predictor （即条件期望）是协变量（包括可观测的，不可直接观测的）和模型参数（不算超参数）的线性组合。所以 LM、GLM、LMM、GLMM、GAM、GAMM 等都是线性模型，高维、低维也都是线性模型。文中有些检验已经破坏经典线性回归模型的假设（常称之为高斯---马尔科夫假设），比如残差同方差假设，残差独立假设，破坏之后至少对应到线性混合效应模型 LMM，文中迟迟不正面提及混合效应模型，我猜可能是因为随机效应不太好解释，光别名就有一堆，而且曾被大佬 Andrew Gelman 发文吐槽过，它像黑洞一样，看不见、摸不着但是又真实存在！此处，可以去看杨灿老师的文章 --- 昔日因，今日意。

我认为的统计模型就两大类，一类是线性、一类是非线性，下面就有熟悉的线性模型，还有不熟悉的非线性模型

$Y = \beta_1 \cdot X_1 + \beta_2 \cdot X_2 + \epsilon \quad (1)$
$Y = |\beta_1 \cdot X_1 + \beta_2 \cdot X_2| + \epsilon \quad (2)$
$Y = |\beta_1| \cdot X_1 + |\beta_2| \cdot X_2 + \epsilon \quad (3)$
$Y = \beta_1^2 \cdot X_1 + \beta_2^2 \cdot X_2 + \epsilon \quad (4)$
$Y = \exp(\beta_1 \cdot X_1 + \beta_2 \cdot X_2) + \epsilon \quad (5)$
$Y = \beta_1 \cdot \sin(X_1) + \beta_2 \cdot \cos(X_2) + \epsilon \quad (6)$
$Y = \sin(\beta_1 \cdot X_1) + \cos(\beta_2 \cdot X_2) + \epsilon \quad (7)$
$Y = \beta_0 + \beta_{1}\cdot X + \cdots + \beta_{k-1}\cdot X^{k-1} + \epsilon,\quad k = 1, 2, \cdots \quad (8)$

大家可以思考下，哪些是线性模型，哪些是非线性模型？

Cloud2016 · 2019年10月5日

另外一个值得注意的是文中原作并没有说完全等价或者等同、等于之类的话，在某些简单的情况可能是完全等价，大多数情况是近似，有些少量样本就近似得很好了。

eeyangc · 2019年10月5日

或许，讲解统计检验方面的问题，还需要让大家看到“做不做统计检验”到底有什么不同。比如，知道"X,Y 相关或者不相关"又怎么样？与不知道“他们是否相关”有什么样的不同？回答这样的问题，不能简单的讲，这里假阳性，那里假阴性，要和真正的科学发现、实际生产结合在一起。

nan.xiao · 2019年10月20日

我觉得这篇文章的意义不仅在于解释了检验和线性模型的数学等价性，更在于指出了很多检验问题本质上都是回归 —— 可以放到回归的框架下来理解和求解。隐藏含义就是，回归问题值得重点研究。

当然，检验作为一大类独立的方法，存在有很多独特的问题，比如p值校正，值得独立研究（很多解法也都可以在回归中找到对应，或者扩展到回归上）。

whymath · 2019年11月11日

很好的文章，从来没见过的思路。感谢译者的工作。
另外请看一下6.1.4小节的模型c的结果为何未给出？因为它和模型b是一样的吗？

Cloud2016 · 2019年11月12日

whymath 谢谢指出来，结果其实是给出来的，只是没有整合到表格里，你展开表格下 Show R Output 可以看到

Liechi · 2021年4月6日

下边的老文章阐述了线性模型和方差分析两个"传统"的缘起和其等价性，并讨论了使用线性模型"传统"做数据分析的优势；可以在一定程度上帮助理解这篇译文背后的"所以然"。

Cohen, J. (1968). Multiple regression as a general data-analytic system. Psychological Bulletin, 70(6, Pt.1), 426–443. https://doi.org/10.1037/h0026714

Cloud2016 · 2022年2月6日

@yihui 歪个楼，blogdown 是否可以原生支持代码块的折叠，这个功能对于可重复性的 R Markdown 博文应该是非常实用的。

yihui · 2022年2月6日

Cloud2016 这个用 JavaScript 实现更现实，然后通过 Hugo 加载 JS 脚本。用 blogdown 实现会比较臃肿。我 2013 年写过一个简单的脚本：https://github.com/yihui/knitr/blob/master/inst/misc/toggleR.js 那时候能力一般水平有限，也写得很粗略，欢迎扩展完善。

Cloud2016 · 2022年2月8日

yihui 我先收藏了。