咳咳,顶下老帖。今天看 FastML 上的科普文章,有一篇是直接删了纯 0 变量:
http://fastml.com/gender-discrimination/
在其他的博文里写到了类似于之前进一步讨论的问题,就是稀疏的 0-1 数据降维和重新表示问题:
http://fastml.com/dimensionality-reduction-for-sparse-binary-data/
http://fastml.com/dimensionality-reduction-for-sparse-binary-data-an-overview/
这里提到的 ICA/PCA, LSI, LDA, 包括 NMF, RBM 等等,所有的这些都可以看作是在做 feature learning,而且都是无监督的过程,但是看起来整体上性能提升比较小,所以我其实是比较倾向用有监督的方式来学特征,这与 Deep Learning 那一套无监督学特征的理念也不冲突,只是更适合比较小的数据和更精细的处理需求,有监督毕竟使用了更多的信息,而且在形式上更容易得到一种收敛的结果。上周开会时还和 @lyxmoo 简单讨论了一下。
上文中引用的一句总结有点意思:
In all, it seems that the performance advantages of specifically designed binary data models are small. (…) For computational models, NMF seems a good approximation. For probablistic models, a modified PLSA or LDA seems quite resonable.
文中还特地表扬了 @cloud_wei 最爱的 SPAMS。[s:11]
这回开会终于听到了菁菁师姐关于 Data Cloning 和零膨胀泊松回归的报告,表示不明觉厉 。。[s:18]