fenguoerbian 主要是借助ARROW从大量parquet抽取出较大的数据中的几列后,使用ggplot进行绘图,很多图。
感觉效率偏低的部分:
- 有一些是统计直方图,我个人感觉针对较大数据集ggplot计算效率低。
- print(p1)的过程我感觉也比较慢,我理解要渲染生成png图片等才能生成rmarkdown可以看的图片。
希望效果:尽可能拉满cpu和io,毕竟笔记本电脑十几个cpu核心和固态硬盘,都看着在待着。
数据的前处理用python的joblib做并行,看着cpu和磁盘占用和风扇呼呼响,还是很有成就感的。