大家好,这个问题不知道发在数据挖掘和机器学习这里是否正确,还请多多指教:
场景是想办法通过试验的成功(Y=1)与失败(Y=0)来发现某种特定的成功样式(pattern)并对未来新数据的样式进行预测,每个试验都对各自变量(X1=温度,X2=湿度,等等)有一个时间序列的观测。通过经验我将某时间点(t)的温度和5秒前(t-5s)的湿度作为两个自变量(或者用机器学习的语言叫特征/feature?)进行了简单的线性判别分析(lda),结果是在高温和高湿度的区域内判别区分较明了,而在低温和低湿度的区域内应变量(Y=1 vs. Y=0)就不能被很好的区分了。
在尝试用比较复杂的多远非线性判别分析(比如polynomial)之前我想再次请教大家,是否可以从选择feature上下手做文章,找到比主观经验(温度及5秒前湿度)更能把数据明确分离的特征?
数据是在R中以list的方式储存的,list中每个element是一个观测单位并且以matrix的方式储存,每行代表一个时间点而每列代表一个变量,重要的是每个试验的观测时长都不一样。所以无法用SVD/PCA来做特征抽取(feature extration)。