有了koalas 和pyspark以后还需要学习numpy和pandas么？

wufaxian

看了知乎上一些关于pyspark和koalas的文章，感觉和numpy，pandas做同样的事情，但是处理数据量更大，速度更快，更节省内存。如果以上理解没错，那还需要学习后两者么？

如果认识有误，还请指出错在哪里，谢谢！

songxiao

wufaxian
numpy 和 pandas是基础。搞数据分析是避不开这两个工具的。况且你要训练机器学习模型的话这两者也和sklearn，xgboost, lightgbm, catboost等库紧密耦合。而如果用spark之类的话如果只在单机上运行价值不大，况且还缺乏对应的下游模型库。再者使用spark分布式肯定建立在海量数据基础上，平常单机跑几百万甚至几千万数据用numpy和pandas肯定是够了。
其次就算是工作不得不使用分布式，那作为实验用小数据写个demo肯定要用numpy和pandas。
不适用这两个库基本无法用Python做任何结构化数据的工作。

G_will

想太多了，到你真的需要用的时候自然就知道了

wufaxian

songxiao 谢谢你的回复。受益匪浅