楼主的拆法等价于制造了新的数据出来,自然是有问题的。这里按下不表…… 假设这里使用正确的方法拆分数据:各个特征的值正确分布在拆分后的各行中,响应变量的值也成比例分配在拆分后的各行中。
直觉上,线性模型在原始数据和拆分后数据上结果的等价性使用简单的数学推导就能证明,因为从 SSE 出发,分解比较一下两种做法对 SSE 的影响,应该只涉及到线性运算。
从另一个角度理解,把数据拆分以后,可以看作是一个批量 (batched) 或在线 (online) 回归问题。使用对应的记法也应该也非常容易证明两边是等价的。
当然,理论上结果应该是一致的,数值结果很可能不完全精确对应。