孙振球《医学统计学》第5版的第325页,关于K均值聚类的“注意事项”讲到,K均值聚类只能用于样品聚类。为什么?
而且,我说不出来样品聚类和变量聚类的区别。
为什么K均值聚类只能用于样品聚类?
monster_white
两个聚类的区别就是样本和变量的区别,对象不一样,转置的关系。
K值聚类假定样本服从正态分布,变量一般不满足这个条件,从结果上来说,变量的聚类中心也不好解释。
vickkk 原来真是转置的关系。我后面来来回回翻了很久书,也稍微明白点了。
变量的k均值聚类中心看起来像是“把一列样本的不同变量混在一起求了个均值”?
具体点就是把一个病人的血红蛋白计数和甘油三酯、血清钾求了个均值,把一列中的每个病人都这样算。
结果压根没有意义对吧。
数学上,对行操作和对列操作本有本质区别,但从业务上就没有解释性了。另外如果你为了看样本相似,变量相似,或者同时看,那方法就很多了,无所谓是行还是列。另外,K 均值这类算法太简单了,基本上仅能用于教学,实际场景下很少有用。