Gnay 两者差别比较大吧,相关分析分析的是变量直接的关系,而关联规则主要是分析诸如A=〉B的蕴涵式,并给出A发生的情况下B发生的概率,其中A和B可以来自同一个变量的不同取值,也可以来自不同变量的值。不知道这样能不能解释你的问题
不羁 谢邦昌老师的解答是: 由于数据量很大,根据中心极限定理,统计检验全部显著,相关分析失效,可是有点不明白,呵呵 我自己的理解,比如单相关系数的检验:t=r(n-2)0.5/(1-r2),若n过大,t值是极易显著的,但和谢老师的解释不同。 迷惑~~
不羁 而且,数据量巨大,导致统计检验失效。此时,是否可以在控制误差的情况下采用抽样的方式,取出相对少量样本,采用相关分析取代关联规则挖掘呢? 毕竟,相关分析作为统计理论,有它严格的假定和检验;而关联规则挖掘却没有,采用的支持度、置信度框架其实也漏洞颇多。 大家可以讨论下这个话题
abel 在R值方面,可以用一下修正的R值,就可以知道为啥样本量大小和R值有关了 提议用抽样的兄弟的想法很好,不过关联规则根据我的理解,很多时候就是就事论事,在所有观测集合中进行的 再说一下,关联规则计算的时候有比较快的方法,而相关系数在计算的时候就是老老实实的计算,样本量太大的时候简直比较郁闷,何况在新观测值加入的时候就更加让人郁闷了,不过还是存在一些改进的计算方法啦