回楼上
我好不容易才上gmail,拿到了密码,原来密码是在手机里面的,但是看不到密码,所以一直没能上论坛。
我在85楼只是尝试复现一种预测方法,如果这种预测基于某个公式,比如y=f(x),那么你说的过拟合其实是认为这个公式是一个回归公式。
我基本上认为,不是所有的预测公式都是回归公式的,除非您能找到证据能证明所有的预测都必须是回归公式。所以您的这个问题有点把我打蒙了。
但是,我承认基于误差的推导过程是一个很好的数学过程,它一下子好像披上了一层光环一样。
我还是认为这仅仅是一个流派而已,我给你举个例子,最大熵的推导也包含最大似然,但是最大熵的推导过程和误差的正态分布就不是一个思路,我其实也不懂这里面到底是什么,但是我的精力有限,为了学会某个方法,我需要舍弃一个。
然后才能回到你说的“增加数据”的问题,这个过程我很难逃避的就是“数据敏感”,这里面有一个“敏感区间”,在这个敏感区间里面预测的结果有点难以控制,这个我承认。
我觉得“误差的正态分布”极有可能仅仅是一个过程而不能说是全部,因为我发现这套思路屏蔽了其他的“可变因素”,这些可变因素可以表现为变量,那么“误差的正态分布”默认要求这个过程“必须找到所有的变量”,这是荒谬的,因为一旦“能够找到所有的变量”,那么就不需要预测了,如果“不能找到所有的变量”,那么这个过程就没有意义。所以这其实是一个死循环。
所以我内心里面其实比较“反感”这种思路,但是你要是为了取得“和大多数保持一致”,你也可以坚守。但是我基本上放弃了这套思路,这样我其实就放弃了这份“反感”。