tctcab 在稍大一点的公司都是把数据存储在集群上,集群的查询性能是数据分析的一个瓶颈,对数据分析来说,如果集群查询优化不好,一个操作就会耗掉大部分时间。
另外一个耗时的是数据分析环境,在稍大一点的数据集(100M至 GB 级)上跑一个简单的算法,在本地笔记本上都是费劲的,所以需要把数据分析环境放在远端服务器上,减少硬件的影响。
事实上,存储环境和分析环境是完全独立的,我这里图方便,把 docker-compose.yml
写成依赖两个虚拟数据库的样子。
建立数据库连接这一块,实际上,传递的是数据集群的域名,比如你个人博客的网名,不会是 <https://r-graphics.netlify.com/index.html#postgresql> 介绍的 IP 地址,并且是把连接的配置存成独立的DSN文件 但是为了说明这个过程,还是写 IP 直观一些,不过可以补充一个介绍。
写博客的话还需要不少时间,我放在 TODO List 里了