Studyup 其实就是尝试自己通过已经有的数据去构造一些新的变量, 因为如果简单的把多条数据的病人合并,会造成有的样本变量多,有的少,或者会有很多缺失值,这样后续会很难处理(很多模型会删除含缺失值的样本),而且效果也不一定好。根据已有的两张表构建一张新表,使得每位病人一条,而且每个病人有所有变量的值。
举个例子:假设股票,因为上市时间不同,所以数据有长有短,而且每支股票每天都有价格,而且价格起点不同,同样不能建模。所以通常会计算每支股票在某个时间段的平均收益、波动率等各种数据,通过这种数据再建模。