world_shu 最近在做交通事故数据pam聚类,发现与某一类的中心点属?相同的样本没有被分到该类,而是错分到其他的类。 我推测是pam算法因为重复样本提前结束迭代了,导致没有吧中心点分到类中。 在下小白,没有数据分析的经验,请指教 平台是win10的Rstudio
CMCai0104 world_shu 因为k-means在迭代过程中中心实在不断调整的,结果不稳定,需要重复几次,可以通过投票选择。 其实聚类分析方法的选择跟数据的分布特点是相关的。下面是sklearn上提供的不同算法在不同数据分布上聚类的结果,可以参考:
nan.xiao 完全相同的样本聚到不同的类听起来像是实现层面的 bug 或者数值问题。不改程序可以可以对数据加一些扰动试试。 没法保证全局最优,收敛到一个局部最优就可以了,根本原因是 k-means 是个 np-hard 问题。