南田
在数据挖掘中,需要放松统计学所要求的一些假设和界定。因为这一点,在数据分析论坛上经常可以看到口水论战,在统计学家看来,一些数据挖掘中惯常采用的做法,如对多重共线性的处理,对缺失值的补值,连续性变量的离散化处理,等等,都是有违统计学原理和准则的。
假设你需要建立一个数据挖掘模型预测高考成绩,可供考虑的预测因子很多,如高中期间的主课平均成绩,家庭状况,教师年资,等等,等等。但除此之外,你从数据中还发现学生每月光顾麦当劳次数和高考成绩高度相关。谁都知道,这是一个“虚假”的联系,真正起作用的应该是一个同时影响麦当劳用餐和高考成绩的因素,例如说父母和子女的关系。对于统计分析,特别是求证分析来说,剔除这种‘spuirious'联系是非常重要的。而从数据挖掘的角度考虑,只要它对预测高考成绩有帮助,有显著的预测效果,在没有更好,更合理的因子可以取代的情况下,就可以使用。
之所以可以这样做,是因为数据挖掘,尤其是商业性质的数据挖掘,有很强的“功利性”。它不是,或不完全是,为求知服务的。并且,数据挖掘注重的是眼前的,立即的成效。所以尽管用麦当劳预测入学成绩经不起时间的考验,但只要能在短期内准确预言高考成绩,为营销活动提供目标,就是达到了目的。数据挖掘的“短命”是有其现实依据的:由于客户在不断变化,营销活动本身在不断重新塑造自己的客户群体,客户对重复促销产生的“抵抗”,所以客户数据挖掘模型的更新周期一般不会很长。
drewlee
interesting
DMer06
希望听到更多楼主见解!
莫名
这或许就是直接从数据本身出发而体现的现象之间数量关系随机性吧。或许如果能发现其中的内在规律性而建立相应模型,模型相对来说应该可以更长寿些了
yihui
搞计量经济学的人对数据挖掘都比较排斥,因为DM确实不注重变量的实际意义。统计的基本用途在于两点,一是对现有关系的描述,二是预测,DM注重的是第二点,而传统统计学大多都侧重第一点,个人认为这是二者分歧所在。若仅仅从预测的角度出发,那么的确可以不用管变量到底是什么含意,只要知道变量之间有某种比较确定的关系就可以了,至于这种关系是真实的还是虚假的,都无所谓了。
tianwild
[quote]引用第0楼南田于2007-04-30 09:44发表的“麦当劳和高考成绩”:
你从数据中还发现学生每月光顾麦当劳次数和高考成绩高度相关。谁都知道,这是一个“虚假”的联系,真正起作用的应该是一个同时影响麦当劳用餐和高考成绩的因素,例如说父母和子女的关系[/quote]
即使关系是虚假的,但我们得找到其背后的原因,来解释和指导实践
比如改善父母和子女的关系就可以提高高考成绩............
kuhasu
统计学原理和准则
-------------------知道这玩意儿是怎么来的么???
飘在郑大
有意思的论点~~
的确在目的比较功利的前提下,在能满足目标群体需求的前提下,提炼出经济学或社会学上看似无意义的因子就存在了意义~~
LZ的一个简短例子给DM比较形象的说法~~