能讨论下统计学习和机器学习,统计模型和数据挖掘模型的区别吗?以前是听吴喜之老师和马景义老师讲的,当时听得很清楚,但时间太久就给忘了[s:18]
是忘了怎么说出来,但是心里很明白也会用,唉就是那种感觉,你知道吗就是说不出来,难以言喻,会让人心里痒痒会抓狂的感觉。
要是能再听到一次就好了。
统计学习和机器学习的区别
《Encyclopedia of Machine Learning》 的观点是,统计学习是机器学习的一个子类:
Inductive Learning
Synonyms
Statistical learningDefinition
Inductive learning is a subclass of machine learning that studies algorithms for learning knowledge based on statistical regularities. The learned knowledge typically has no deductive guarantees of correctness, though there may be statistical forms of guarantees.
当然这个分类没什么意义,手段都在互相渗透。统计学家喜欢叫统计学习,计算机科学人士喜欢叫机器学习,即使做的内容都差不多。
回复 第2楼 的 肖楠: 不是这个,我听到的不是这个,是那个什么呀,唉呀又来了。。。[s:12]
你听过吴喜之老师或马景义老师的版本吗?我记得他们在讲这个的时候,尤其是马景义,对统计模型,主要是宏观那些,怀有鄙视态度。
inference (statistics) VS prediction (machine learning)
- 已编辑
统计学习和机器学习的差别不怎么大。倒是统计建模和机器学习有些差别。2001年Breiman(是这么拼的吗?)写了一篇文章,叫做statistical modeling:two cultures,介绍了之间的区别。统计建模是基于数据的概率分布的。因此统计模型中很重视推断inference,这些推断,比如假设检验,置信区间,都是基于某种分布假设的。而机器学习最近本的问题,便是要最小化预测误差的某种度量。这两种方法对于世界的认知是不同的。统计建模,最终的目的,是获得数据的概率分布,如果数据产生的分布已知,那么就天下大吉。统计建模认为世界可以用概率分布来逼近。而机器学习不这么认为,它不在乎数据产生于什么分布,并且认为这个世界运行的方式是无法单纯用概率分布来解释的,比如神经网络。因此,它的目的,是预测的精准性。这是两种建模的方式,而归根结底,是对这个世界认知的方式。
回复 第5楼 的 bigknife:对就是这个!找回来了。好像还有推导的。我去找下这篇文章。谢啦!
统计学习更倾向于模型,通常会基于某种已知的模型就行计算。而机器学习更倾向于数据本身,往往会通过某些算法(决策树,聚类,支持向量机,神经网络等)来从数据本身挖掘信息。
回复 第5楼 的 bigknife:5楼的版本比较详细,顶下!!!
这个问题,.....data mining 和 machine learning 有区别么? 如果有,前者是统计学院开的,后者是计算机学院开的。 哪个教授好就去上哪个,
还是不太明白统计学习和机器学习的差别。感觉建模的时候思想是类似的。比如ARIMA, 同样也是最小化预测误差。
机器学习和数据挖掘的差别也类似。 似乎很多方法即是机器学习也是数据挖掘的
感觉以前说得不够正确,应该更强调区别才是。
统计学习对问题的形式规定更严谨和严格,对某些特定形式的问题有比较深入的理论研究,整个领域也建立在非常坚实的数学基础之上。机器学习的应用领域更宽泛一些,问题形式的定义更灵活,对性质的证明要求有时不是很高。数据挖掘就相当于是一个结合数据库技术的以上两个学科的应用。最后,大家都是在求解一个最优化问题。
鄙视链大概是:统计学习 -> 机器学习 -> 数据挖掘
统计学习一般用到本科和研究生水平的数学,机器学习更多地用到高中和本科水平的数学,数据挖掘可以不怎么用数学 。。不过这个也因人而异,我是数学水平比较差的,学得少。
至于统计建模和机器学习,我觉得在今天差别已经太大了,不用多说了,Breiman 讲得很清楚了。
感觉机器学习要求要有一个号的idea,然后用计算机来实现,而统计则已经有比较成熟的理论。
用我们老师主业的话说。。。。统计就是翻来覆去 sparsity...哈哈
在看一本叫The elements of statistical learning,可是里面有很多machine learning的东西,略有些迷茫[s:18]
回复 第14楼 的 Veronica:
这事吧,我觉得是因为具体实现手段上 machine learning 的外延比 statistical learning 大。
ML 里还有不是statistical learning 的, 如 graph structure learning , 不过这个 GSL 要证真和证伪都很难,感受一下地图四色原理的证明。
ML还有炒热的 Deep Learning , 没有看到有人说自己可以理论证明这样正确。感受一下哥德尔的不确定性证明过程。至少有十年以前,计算机还走了一段 Deep Logic 的路,当然那时候数据还不那么多,广告公司们也还是只做地面业务。说到后一个DL, 有厦大的可以出来说说贵校 @周昌乐 教授。
ML 还有一些二次元的方法,essemble 、Boosting 、pruning ,当然这些方法在实施的时候你还可以用统计的方法,也可以不用。
所以计算机强调了技巧性,一次元回到理论上主要是统计方法,也有拓扑类的,或者不知道该归于哪个数学门类。作为数学渣渣就不说了,我都不确定排队论算门学科么?或者是几级学科类的。
计算机对统计,就像统计对数学,这么说不会被人板吧。这样概念上好理解。
下面的观点摘自一本讲sas建模的书籍,书名忘记了:“传统统计学与机器学习的最大区别是前者在技术实施过程中往往只是一次性的,而后者却是实时的。显然通过实时的学习得到的模式比一次学习、多次使用的效果要好得多,这也是机器学习嘲笑传统统计学的最大资本。”
回复 第16楼 的 neo.cryptic:这话成了统计学家嘲笑这作者的最大资本
bigknife
醍醐灌顶