数据发掘和机器学习是一码事情么？

fan · 2009年10月3日

最近我对这些概念有点晕

shuaihuang · 2009年10月3日

机器学习和数据挖掘以及统计之间的关系表面上很像，但是也有非常大的区别

相似点在于：都是数据分析的工具，三个领域内都有办法用来分析同一数据，基本原理都很浅显。

不同点在于：

统计对模型的要求比较苛刻，如谢所引，一定要对模型的各种性质，比如大样本，小样本，是否无偏，有多大的variance，是否达到c-r bound，是否一致，最后最好还要有model checking. 机器学习很少关心模型在大样本的情况下如何，也不关心estimator的传统的性质－－这也可能是因为他们的模型太过复杂，无法从数学上证明，这也从一个侧面反映了为什么normal distribution在统计中的用处如此之大（有了它，很多模型的性质的研究就便的容易了），也有可能是因为他们一般都用在数据量大的地方－－但是机器学习却挺关心另一个东西－－error，包括empirical error and structural error。举个简单的例子，我们眼看着神经网络和支持向量机这两种网络模型很流行，很容易懂，很有用，但是很多人却不知道它们来自何处，为什么能具有对广泛的数据拥有广泛的用途，为什么精度会很高？－－背后的原因很简单，它们两分别优化的是这两种error。而机器学习正是着眼于研究这两种error，通过这两种error的研究垮身为一种具有很浓数学味道的学科－－用了大量的分析学－－而这一点也是它与数据挖掘的本质区别－－数据挖掘只需要设计一张鱼网（算法），在大量的数据中网到自己需要的模式，很多时候相当的需要运气。所以很多人都说这是渔夫的工作。

libran_x · 2009年10月16日

好久没来，看到各位前辈这么耐心的解释，真是感谢啊。

我看的似懂非懂吧，基础比较差呵呵。

我还有一个弱弱的问题，就是数据发掘和机器学习是不是都需要很强的编程能力呢？我看The Elements of Statistical Learning这本书好像用的是R软件，是否还需要类似C++或者java这样的东西打基础呢？

我很想再这个领域学习一下，以后有所发展。

cloud_wei · 2009年10月16日

要做深入的话，C++似乎少不了，速度上占优势的。

cyy024 · 2009年11月21日

刚听一个技术总监的解释

数据挖掘更多是在数据中寻找规律，给出数据特征，如关联规则挖掘。例如：超市的数据挖掘出买面包的人一般都会买牛奶，所以摆放物品时会考虑两者一起。

机器学习，则更多是预测问题。通过对数据的学习，找出规律，给出以后的趋势。

本人在机器学习领域也是有兴趣的新手，希望分享自己的理解与大家一起交流。

bjt · 2009年11月22日

简言之，数据挖掘是当今 IT 界给统计学的一个商业包装。

文德华 · 2009年11月29日

有点区别

qmax · 2009年11月29日

数据分析--数据挖掘--商业分析，只是概念而已，到了运用的层次，还不是一回事。

ssawee · 2009年12月4日

为了达到目的，两样都重要

个人觉得一个重数据，一个重数据的处理

paradoxbirdy · 2013年1月28日

对概念的争论，人们往往更热心啊

512002855 · 2013年1月30日

回复第2楼的谢益辉：个人拙见：在数据挖掘中，统计专业的人和计算机专业的人承担不同的角色。学统计的主要负责建立模型（筛选变量、模型计算等等），计算机专业的主要负责数据库(ETL、数据集市等等)和模型结果的部署。当然学的好的高手也会集两种角色于一身。

bjt · 2013年1月30日

这两天微博上讨论也很热烈，居然把这么老的帖子翻了出来[s:11][s:11]

neo.cryptic · 2013年1月31日

这坟挖的。。。

Ti_an · 2013年2月11日

老帖仍然有助于新手入门><

August · 2013年10月7日

很好，[s:11]很受用，[s:11]