nyd
我需要做族类分析,但又个约束:每个类别的子组大小是预先设定好了的固定值。
例如把400个数据分为10类,每一类都是40个数据,类别之内样本最相似。
求教,急!谢谢!
NikuPies
很奇怪的需求,那如果按照常理聚类出来的cluster,簇内点多余40个,要硬生生拆开吗?好违背常理,要不你换个算法试试?或者你可以异想天开,就按照原始的方法进行聚类,对于那些多余40个数据的,选最近的40个,cluster内的别的标记为簇外,少于40个的,将靠的最近的,但是没包含进该cluster的同时是簇外的点包含进去,同样选最近的(这方法真扯真违背常理)
sangs_M
初步思想:
将属性进行标准化处理或者归一化处理;
按照距离大小排序进行平均切分成n类,每类都有m个。
关键在于属性处理和距离定义