nyyankee 统计学里大谈特谈回归中需要注意的前提,独立同分布,多个自变量独立不相关,还有残差分析,多重共线性检验之类,怎么机器学习不谈这些东西,只谈如何拟合,如何找到算法通过找极值从而求出参数,然后就没了。 总感觉不太对,有谁来帮我解解惑。
nan.xiao 统计角度的线性模型通常做了很多数学上的假设, 如果不满足这样的假设就会出现问题, 于是衍生出了各种不满足条件的检验和详尽讨论. 而 ML SL 对数据通常没有很强的假设, 是通过模型复杂度来讨论这些问题的. 解决办法就是更广泛意义上的 regularization, 对于线性模型有 shrinkage. 可能是 Ng 叔讲的比较注重工程和算法. 如果是统计系的人来上, 会更多的讲一些理念上的东西, 历史现在和未来什么的.
foison 回复 第2楼 的 肖楠:回复 第1楼 的 nyyankee: 我觉得这些问题还是考虑的,只是讲授时侧重点或者检测的方法不同了,比如当你的目的是预测时(很多机器学习模型的目的),多重共线性其实不是一个问题只要不过度拟合。 而且在机器学习里比如spline,mixture这些东西其实既是模型也是检验方法。当你不确定有没有异方差,你假设他有然后比如建立一个mixture模型,通过各种方法(交互验证等)约束这个模型。最后通过模型比较选出合适的模型,因为没有完全正确的模型,只有更好的模型。
cchen125 同意楼上,如果目的是预测的话,最小二乘本身不需要对数据的分布做任何假定。但是要做变量选择,或者说假设检验(t test;F test),那就需要做检查predictor是否共线性,异方差之类的(残差分析),否则检验做出来也没意义。
lyxmoo 请益各位机器学习、统计、计量的行内先达学者,是否有意识到知识的域内存在“假设”。 及如何对待处理的方法存在假设的问题,望不吝赐教。 又及:魔都R会,间歇中不着头脑地问了cloudly兄台一句类似的话,也乜博得回应,概约提问没得问清楚。