foreseer201 做k-means聚类,数据5个属性,其中两个属性的数量级小。没有标准化,而是将这两个属性分别*100、*10,与其他三个同一数量级了。发现聚类的结果,比做了标准化的还好些。(首先轮廓系数高些,但这个高不多;重要的是聚类后每簇的几个属性均值,与其他几个簇比都有明确差异,业务理解更清晰)。 这种直接放大数量级(以确定他们在欧氏距离的计算中不会被忽略作用)的作法,大家有用的么?感觉挺野路子的,虽然这次得到的结果不错。。。没见别人提过 [s:16] 欢迎指教,谢谢。
yanlinlin82 回复 第1楼 的 foreseer201:我不大懂,前来学习,勿狠拍。我猜所谓标准化是每个属性分别除以其最大值吧?如果是这样,可能它们的放大倍数是各自不同的,从而拉平了那些在同一数量级的数据的差异,进而其结果不如你的人为方法清晰吧。但你的这种方法是否难以量化或程序化呢?也即,换个人来分析,结果会否重复?
foreseer201 回复 第2楼 的 yanlinlin82:感谢回复。我觉得结果能否重复其实取决于k-menas方法本身的执行,我将迭代次数增加到500次,试了多次结果还是比较稳定的。可能这种处理数量级的方法,在变量特别多时不实用,因为两两去比较他们的数量级差多少?不太现实。那么直接一个scale标准化全都解决,是很通用的方法。 我这次的情况是只有5个变量,所以得以挑出两个来单独对待。[s:13] 算是变量少时的特例吧。 就是不知道除了变量数限制之外,这样直接的方法用的不多,是不是有别的原因。
micro@ Essentially, you are giving each variable a weight. A more general /justifiable approach could be optimizing over the weight w.r.t. certain clustering quality criterion.