南田
企业数据挖掘人员需要掌握多少算法呢?
大多数数据挖掘问题都不止一种解决方案,也就是说算法之间可以相互替代。例如在开发客户响应/回应模型时,逻辑回归,决策树,神经网络,都是可用的算法。研究广告的效力,既可以使用时间系列回归,也可以使用结构方程模型,或者潜在生长模型。对于企业数据挖掘人员来说,不必过于担心自己的算法知识面是否过窄。数据挖掘知识是深浩的海洋,没有人可以穷尽。即使你在学校时,接触了各种算法,但也不过是蜻蜓点水,离真正拿到实践中应用还有相当一段距离。
我们可以把学习算法和修习武功做一个类比。天下武功有各种流派,本身没有高下之分。但是竞技却有高下,这就要看修习人在本门武功上的浸润和修为。再精巧的路数和变化,你没有修习到位,同样会输。而一门简单,看似笨拙的武功,只要修炼到炉火纯青的境界,同样可以打遍天下。所以决定胜负的实际上是“功力”,并非武功家数本身。学习数据挖掘算法是同样的道理,不怕少,只怕不精。决定数据挖掘质量高下的关键因素是挖掘人员对所用技术的了解和把握。同样一个模型,A来做可能需要15个预测因子,B来做可能只要10个就可以达到同样的提升力;再比如你的预测模型用了1次效果就开始下降,他的模型用了n次后仍然保持最初的效力,这就是功力高下之分。至于用哪一种算法,和挖掘的质量没有必然的联系。所以我们的建议是深研精通一,两种最常使用的算法,搞清其中涉及的各种细节,做到理论知识和实际技巧兼备。在此基础上,研修其他算法,逐步扩展自己的储备。在面对数据挖掘问题时,不是以算法本身的精巧作为选择标准,而是从自己对算法的掌握程度出发,选择解决问题的最佳方案。
不同的数据挖掘算法之间其实还是有很多共同之处的,深入掌握一门算法对学习其他算法很有帮助,可以起到举一反三,触类旁通的作用。如果再可以相互印证,通过比较找到不同算法之间的异同,融会贯通,就可以达到一个新的境界。所谓天下武功,尽我所用。
(欢迎转贴。但请注明来源和作者)
33859007
在实际的应用中,在熟悉算法的情况下,对业务的理解是相当的重要!!
yaolanma
写得很好 我是一名统计学的研究生 也学的是数据挖掘方向
这学期就在学习数据挖掘课程 可到现在我的思路还不是很清楚 怎么运用它? 学了一些东东不知道是干什么用的
DMer06
楼主 说得好
莫名
我也是刚开始学着方面的,不过就现在解除而言,似乎数据挖掘类设计正对性很强,不同的事务、对象需要我们根据其不同的特征性质设计不同的分析方法。如果比喻为学武功,精一门而的天下,我觉得这似乎不怎么现实