vver 要处理一组数据(样本量1000左右),模型猜想其中包括均值显著差异的两类(但实验无法区分,故只得到一组数据),从数据分布看也明显不是单高斯,用t检验或Wilcoxon 符号秩检验得到的置信区间也集中在组均值附近没有参考价值。 请问该用什么方法来检验猜想?如何进一步确定两类的界限? 可能有表述不清,欢迎大家指正指点,多谢!
nan.xiao 无监督方法,比如一般的聚类方法。或者大多数可以被看作 无监督方法的半监督、有监督方法。 我的一般做法是 t-sne 降到二维或者三维,再做一下 cascade kmeans 标颜色,就可以看出大概分几类了。 「确定两类的界限」,让我联想起了一个方法应该比较 符合你的需求,那就是 one-class SVM。
nan.xiao 「从数据分布看也明显不是单高斯」,原来是一元问题。 直接做个 hard threshold 就行了,移动一下这个 threshold 然后对得到的两组做检验,看什么时候比较好,就能确定一个 大概的界限了。 因为信息不够,所以处理起来比较随意。