在建立回归模型的过程中,如果我讲数据分成A,B两组,通过A组数据建立模型只来估计A,这么做会有什么潜在的问题吗

    tctcab xxx

    其实我觉得问题不大,training set/ dev set / test set 主要是 machine learning 的概念,主要是基于数据集来自于同一总体、也为了控制过拟合的问题。

    而统计上的回归并不是这个思想,我们是基于假设建模,然后通过理论求得最优解,当然最后需要验证残差的独立同分布性。

    所以如果数据集A能够代表总体,同时做了残差分析,那么应该也是合理的。

    结果好不好当然和你的问题和数据有关. (废话
    具体到某些问题, 这样做是"不好"的. 举个例子, 你想估计收入和"是否有本科学历", "工作时长"两个变量的关系. 你把数据分成两组, A = 有本科学历的人, B = 没有本科学历的人. 每组 50 个数据. 分别用 A, B 两组数据跑回归
    wage=αyears+ε wage = \alpha \cdot years + \varepsilon
    就得到了两个关于 alpha 的估计: αA\alpha_AαB\alpha_B. 每次对 alpha 的估计你只用了 50 个数据.
    但如果你只跑一个回归,
    wage=αyears+βI(college)+ε wage = \alpha \cdot years +\beta \cdot I(college) + \varepsilon
    这样你只得到了一个对 alpha 的估计, 同时这个估计你用到了全部样本的信息. 一般搞社科的会觉得这样的估计更准.