Liechi 看到 stack overflow 上一个 2015 年的关于 data.table 和 dplyr 的讨论。 Arun 和 Hadley 分别从 data.table 和 dplyr 的角度对比了二者在语法,速度等方面的表现,看了觉得对了解这两个包的优缺点挺有帮助。
Liechi HarryZhu-7harryprince Hadley 也在打造一个类似的包 (dtplyr)。 不过我觉得 data.table 的语法没有麻烦到需要“翻译”的地步,而且据 Hadley 说翻译会降低数据处理的速度。
HarryZhu-7harryprince Liechi 我目前遇到比较麻烦的一个问题,用 sparklyr 处理的代码,想翻译到 distributed R 上,如果直接用 dplyr 会发生 copy 操作,内存很容易溢出。 这时候就需要使用 data.table, 但是把代码完全重写一下又挺麻烦的,这种场景就能很好的 cover