wufaxian
numpy
和 pandas
是基础。搞数据分析是避不开这两个工具的。况且你要训练机器学习模型的话这两者也和sklearn
,xgboost
, lightgbm
, catboost
等库紧密耦合。而如果用spark之类的话如果只在单机上运行价值不大,况且还缺乏对应的下游模型库。再者使用spark分布式肯定建立在海量数据基础上,平常单机跑几百万甚至几千万数据用numpy
和pandas
肯定是够了。
其次就算是工作不得不使用分布式,那作为实验用小数据写个demo肯定要用numpy
和pandas
。
不适用这两个库基本无法用Python做任何结构化数据的工作。