twinsken 本来用R 最近发现文本啊之类的高维 实在撑不住 转用python了 有一个scikit learning 比较成熟,我觉得小规模数据都差不多,big data 要么算法online的 要么用分布式的稍微成熟些的mahout