看书的时候,遇到点疑惑:
在做supervised learning的时候,我们将数据集分割成training和testing两个部分.
那么在unsupervised learning的时候,比如clustering,有必要分割成training和testing吗?看到一本书上写在构建了clustering的模型以后,也需要找个disjoint的数据集来测试模型的consistency。
书里也没明说这个consistency指的是什么,所以不太明白。
总感觉没必要分割吧,supervised learning里面分割是为了防止training的时候overfitting吧,clustering没有label,无所谓训练不训练...
假设分割成两部分(80%-20%),在80%上用K-means,得到n个clusters最合适,然后用这个模型去聚类那剩下的20%?聚类完成了怎么检验呢?是看这20%的数据上得到的cluster的特征和80%得到的有没有差别吗?
那我把所有数据合在一起的时候,n个cluster说不定就不是最合适的了...呃到底要怎么做呢?求指导,谢谢。