weijing r回归模型中r方很小,但t检验和f检验都显著,模型有效嘛? 响应变量是连续变量,自变量一个是连续变量(这个连续变量单独分析结果跟因变量基本毫无关系,但是现实理论上是有关系的),3个虚拟变量,用100万个数据样本做的回归分析,但是r方才0.26,t检验和f检验都显著 请问我需要做些一下什么啊?感觉残差分布也不太像正太分布。是要添加变量嘛?初学者求大佬教教。。。
fenguoerbian “理论上有关系”,那么具体的关系是什么样呢?是否就是你模型使用的线性关系呢? 你建模的目的到底是什么,是用来拟合,获得对数据的解释性,还是希望用来做预测?你要明确你的目的,再来检视当前的模型是否能够满足你的目的。而不是只看若干指标是否显著。举个极端的例子: n <- 1000000 x <- rnorm(n, sd = 1) beta0 <- 0.5 y <- 1 + x * beta0 + rchisq(n, df = 3) fit1 <- lm(y ~ x) summary(fit1) plot(density(fit1$residuals)) 这样的一个模型,做下来\(R^2\)非常小,残差也不是正态,但t、f检验都很显著。作为“上帝”的我们知道这个线性建模确实是正确的。而另一个模型 x <- rnorm(n, mean = 6, sd = 1) beta1 <- 0.5 y <- 1 + x ^ 2 * beta1 + rnorm(n, sd = 1) summary(lm(y ~ x)) 不光各项检验都显著,\(R^2\)也有0.95以上。但作为“上帝”的我们知道这个模型本身是错的。实际应用中还能看到很多各项检验都不显著,结果\(R^2\)却非常高的例子。