关于样本选择的问题

xxx

在建立回归模型的过程中，如果我讲数据分成A，B两组，通过A组数据建立模型只来估计A，这么做会有什么潜在的问题吗

tctcab

xxx

有问题啊，仔细查查训练/验证/测试集的定义

CMCai0104

tctcab xxx

其实我觉得问题不大，training set/ dev set / test set 主要是 machine learning 的概念，主要是基于数据集来自于同一总体、也为了控制过拟合的问题。

而统计上的回归并不是这个思想，我们是基于假设建模，然后通过理论求得最优解，当然最后需要验证残差的独立同分布性。

所以如果数据集A能够代表总体，同时做了残差分析，那么应该也是合理的。

albert-R

结果好不好当然和你的问题和数据有关. (废话
具体到某些问题, 这样做是"不好"的. 举个例子, 你想估计收入和"是否有本科学历", "工作时长"两个变量的关系. 你把数据分成两组, A = 有本科学历的人, B = 没有本科学历的人. 每组 50 个数据. 分别用 A, B 两组数据跑回归
$wage = \alpha \cdot years + \varepsilon$
就得到了两个关于 alpha 的估计: $\alpha_A$ 和 $\alpha_B$ . 每次对 alpha 的估计你只用了 50 个数据.
但如果你只跑一个回归,
$wage = \alpha \cdot years +\beta \cdot I(college) + \varepsilon$
这样你只得到了一个对 alpha 的估计, 同时这个估计你用到了全部样本的信息. 一般搞社科的会觉得这样的估计更准.