共有122个样本,6/4划分训练集(81个样本)与测试集(41个样本,叫做测1),梯度提升模型(Xgboost)AUC分别为0.891和0.857。
现有另外145个均为阴性结局的样本,将其与前122个样本合并后作为新的测试集(叫做测2)。将已训练好的模型用predict(xgb.fit, data=test)函数应用于测2中,结果显示仅能正确预判1个阳性结局。但该模型在测1中便能正确预判19个阳性结局,而同样的19个样本到了测2中,却有了不同的结果。
请问这是因为测2包括了用于训练模型的那81个样本的原因吗?