holydudu 怕不是要放在内存中做进一步处理吧,data.table中的fread函数,预设好各列的属性,默认的多核读取,应该会比readr中的各函数快一点,估摸着4核8线程的2.4G主频读取2.5G的csv得3分钟?
tctcab 这么大的话下次用数据库吧, sqlite挺好用的。而且在R里不需要额外学习SQL, 熟悉dplyr就可以在R里直接query数据库了。好用到飞起! 考虑到这么大的文件读入内存之后还得进行后续分析,稍不注意内存就被撑爆了 参考这个博客 还有这个
HarryZhu-7harryprince @18302113023 业界的通常做法,把这个文件先在 linux 命令行上 split 成若干个小文件,然后写一个 data loader 以iterator的形式 分别读取这些文件 作为模型输入。现在DL的模型数据一般都非常大,一个csv文件基本搞不定。