在建立回归模型的过程中,如果我讲数据分成A,B两组,通过A组数据建立模型只来估计A,这么做会有什么潜在的问题吗
关于样本选择的问题
结果好不好当然和你的问题和数据有关. (废话
具体到某些问题, 这样做是"不好"的. 举个例子, 你想估计收入和"是否有本科学历", "工作时长"两个变量的关系. 你把数据分成两组, A = 有本科学历的人, B = 没有本科学历的人. 每组 50 个数据. 分别用 A, B 两组数据跑回归
就得到了两个关于 alpha 的估计: 和 . 每次对 alpha 的估计你只用了 50 个数据.
但如果你只跑一个回归,
这样你只得到了一个对 alpha 的估计, 同时这个估计你用到了全部样本的信息. 一般搞社科的会觉得这样的估计更准.