fly717
聚类分析最主要的方法是谱系聚类,其又有8种聚类方法供选择,而且利用这8种方法做出的结果几乎各不相同,请问在做分析时,具体该如何选择这8种方法?为什么?比如下面这个案例:
山东省第三产业内部各行业发展状况数据分析表
行业 06年产值比重 07年产值比重 产值增长率 06年就业比重 07年就业比重 就业增长率 06固定资产投入比重 07固定资产投入比重 固定资产投资增长率
交通运输、仓储和邮政业 16.9 16.1 14.5 16.7 16.5 3.8 11.7 11.9 20.8
信息传输、计算机服务和软件业 4.6 4.5 15.4 3.0 2.9 2.0 1.1 0.8 -5.1
批发和零售业 22.4 22.6 14.8 36.6 36.9 6.2 8.1 8.9 30.0
住宿和餐饮业 7.4 7.0 9.7 11.4 11.8 9.7 2.2 2.9 53.6
金融业 8.0 9.7 24.6 2.2 2.2 6.6 0.1 0.2 46.4
房地产业 10.8 10.8 14.1 1.4 1.5 16.6 40.0 43.9 30.6
租赁和商务服务业 3.1 2.9 12.4 2.5 2.7 14.3 1.4 1.2 -0.1
科学研究、技术服务和地质勘查业 1.4 1.4 8.5 0.7 0.7 8.6 1.1 0.7 -25.7
水利、环境和公共设施管理业 1.3 1.0 -1.5 1.0 0.9 3.2 11.2 10.2 8.1
居民服务和其他服务业 4.3 4.4 15.1 2.6 2.5 2.4 0.8 0.6 0.5
教 育 5.9 6.3 22.8 9.3 9.0 1.9 6.0 4.5 -11.0
卫生、社会保障和社会福利业 3.7 3.7 16.2 3.2 3.2 5.4 1.4 1.5 33.3
文化、体育和娱乐业 1.0 1.1 21.2 0.6 0.6 1.2 2.1 2.0 15.3
公共管理和社会组织 9.1 8.5 7.9 8.8 8.3 -1.0 12.9 10.8 -0.6
备注:数据来自《山东统计年鉴2008》
如果想把它聚类分析,发展水平相似的行业分到相同的类中去。应该用哪种方法较好?
潘岚锋
聚类分析好像没有好的方法选择标准
就我看到的,一般都是说只要结果有一个好的解释就要吧认为方法正确
我们多元教材中这么写:
单连接一般倾向于聚成很大的类,因为只要两类有很少的点相近就归为了一类;
全连接则相反,只有所有的点都相近才归为一类;
平均连接、median和centroid应该都是对以上两种的一种综合;
ward则让类内离差平方和增多最少。
不过好像没有什么现实指导意义,所以我很乐观地得出结论:方法随便选,只要结果好解释
冰儿
一般还是用类平均法和离差平方和法比较多……
fly717
多谢楼上两位指导,不胜感激。。我在用聚类时大多选用ward方法,因为他的思想是使类间的差异尽可能大,类内个体间的差异尽可能小。所以好像更能体现类间差异。但我在用的时候还是有些后怕,老担心别人问我为什么不用别的方法。昨天晚上找了几篇文献读了下,但感觉还是有点模糊。。大家感兴趣可以读下:
1.六种常见的条件系统聚类法比较 沈毅 陈峰 中国卫生统计 2004年12月第12卷第6期
2.五种常用系统聚类分析方法及其比较 胡雷芳 浙江统计 2007年第4期
潘岚锋
多谢分享
尤其第二篇在理论上总结了一下几种方法特点,学到不少
dengyishuo
用K-means快速聚类。
xiaoli1106
聚类方法有快速聚类和系统聚类。系统聚类中又有很多方法,一般而言,类平均法比较常用。
luoluo0307
急求这两篇文章,请问哪里可以求到,谢谢