求教，急！请教固定子组大小的聚类

nyd · 2015年12月26日

我需要做族类分析，但又个约束：每个类别的子组大小是预先设定好了的固定值。

例如把400个数据分为10类，每一类都是40个数据，类别之内样本最相似。

求教，急！谢谢！

NikuPies · 2015年12月30日

很奇怪的需求，那如果按照常理聚类出来的cluster，簇内点多余40个，要硬生生拆开吗？好违背常理，要不你换个算法试试？或者你可以异想天开，就按照原始的方法进行聚类，对于那些多余40个数据的，选最近的40个，cluster内的别的标记为簇外，少于40个的，将靠的最近的，但是没包含进该cluster的同时是簇外的点包含进去，同样选最近的（这方法真扯真违背常理）

sangs_M · 2015年12月31日

初步思想：
将属性进行标准化处理或者归一化处理；
按照距离大小排序进行平均切分成n类，每类都有m个。
关键在于属性处理和距离定义