我知道了R里的聚类函数有kmeans 和 hclust
这两个函数都是对数字变量进行聚类的
如果要对类型变量聚类,怎么办?
比如有3种指标
1、颜色:红,黄,蓝
2、材料:金,木,土
3、工艺:天然,手工,机械
有一系列的产品,指标各不相同
1 红,金,天然
2 红,木,天然
...
...
99 蓝,土,手工
按照相关系数的方法:每两个产品,3个指标中有几个指标相同,他俩的相关系数就是几
如此建立99*99的相关矩阵
将相关系数作为颜色画图
图中,蓝色表示相关度高,红色表示相关度低
但是这个相似度矩阵要排序以后,才能看清楚聚类的情况的
我刚做到这里,拿出来和大家讨论一下,大家看下一步怎么做比较好呢
1、排序,让蓝色的点向对角线集中
2、把排序的结果和原来的产品ID 对应起来,不然聚完类都不知道谁是谁了:)
排序我已经有思路了,有兴趣的大家可以在这里讨论一下~