Cloud2016 evalparse 欢迎欢迎!你有兴趣写一篇介绍 disk.frame 的中文介绍文章吗?我们可以帮助在微信端和主站宣传,统计之都有很多的公号粉丝,投稿指南在这里 <https://cosx.org/contribute/>,这样可以让更多的人了解到这个利器
HarryZhu-7harryprince evalparse 6666,久仰 disk.frame 大名,对于计算密集型的场景,目前看使用 spark 做算法的迭代效率还是没有单机的效率高。希望可以看到结合 disk.frame 训练图模型、树模型的例子或者说怎么在生产环境中运用。 https://rpubs.com/xiaodai/intro-disk-frame 目前看,R/disk.frame 对标 Python/Dask, 可以解决 Spark 在机器学习任务上迭代效率低的问题。比如 xgboost 和 tidygraph、dbscan 等算法的单机分布式训练问题。
Cloud2016 disk.frame 聚焦在单机处理上,突破传统 R 在内存上的限制,disk.frame 目前还不能在集群的环境中使用,期待后续有 cluster.frame,集群环境需要更多考虑通信、调度和带宽(这个可能比较难),所以 disk.frame 的限制是单机的硬盘容量。如果你的数据和模型能在单机上跑就可以考虑 disk.frame 如果超过了,就不适合,所以问题是你生产环境有多大?