采用聚类分析时，如何确定聚类的数目？

jonhy

采用聚类分析时，如何确定聚类的数目？这个聚类数目的确定有一定的方法吗？

yihui

视实际情况需要而定，没有数学上的准则。

longoR

数学上其实也有很多方法来协助选择

只是说没有在任何情况下都可以用的方法

很多cluster validation方法都是搞计算机的人提出来的

比如检查cluster stability等等

搞统计的有一些很早期的方法在everitt的书里面都包括了，

稍微新一点的有tibshirani的gap statistic，

和reversible jump MCMC来选择model based clustering的数目。

简而言之，这个问题仍然是一个统计学界的open question。