用自定义的运行环境替代 Travis 环境

Cloud2016

我曾经发过一个帖子谈及如何用 Travis + Netlify 自动编译和部署书籍？虽然引来谢大的反驳，但是我还是不死心，今天干脆把这事办了。

首先自己写个 Dockerfile 制作一个镜像，存放在 Docker Hub 上，然后在 Travis 上把它拉下来。即将整个编译书籍的环境依赖打包，这就替换了黑洞洞的 Travis 环境，还保留了连续编译的，连续部署测试的功能，相当于我只是用了 Travis 的机器和极小可控的环境。
这种搞法的另一个好处是缩短了安装一大坨系统依赖和R包的时间，这个时间变成下载一个镜像的时间，此外，还可以扩展，比如你的项目依赖数据库，或者别的复杂环境，顶多再造个Docker镜像，即使再复杂，把 docker compose 请出来就是了。还有一个好处是突破了 Travis 限定的系统环境，有 Dockerfile 你就可以制作 CentOS/Fedora 等任何你想要的系统运行环境

说了这么多，我这里提供一个例子 <https://github.com/XiangyunHuang/RGraphics>

做这件事的动力还来自 <https://github.com/rocker-org/rocker> <https://github.com/rstudio/r-docker>
虽然 rocker-org 制作了一系列不同R软件版本、内容的镜像，但是 RStudio 还是不满足自己造了一堆环境，可见这样做有场景需求，不单单是编译书籍。

最后，虚拟一个业务场景，一个 Docker 镜像运行数据库（实际上可以是一个Docker集群），收集 APP 产生的数据（还可以实时），另一个 Docker 镜像打包数据分析环境，负责分析这些数据（ R Markdown 打造的日报、周报、月报、季度报模板）。

Cloud2016

以可以组织多个 R Markdown 文档的 bookdown 项目为例，连接多个外部业务数据源 ClickHouse 和 PostgreSQL 等，不同的 Rmd 文件实现不同业务不同层次的聚合和建模分析，从数据源到最后的报告一键生成 docker-compose up，数据存储和分析完全云端化！感兴趣的可以研究下我的项目 <https://github.com/XiangyunHuang/RGraphics> 。这套流程我打算首先应用到书籍的编写环境中。

项目以 Travis 提供的云端环境为基础，虚拟了 ClickHouse 和 PostgreSQL 两个独立的数据存储环境，手动打造了 bookdown 项目依赖（Dockerfile 写起来有点费劲），为了本地可重复计，手写 docker-compose.yml 组织 Docker 容器，传递环境变量、映射端口等事宜！

至此，学习 Docker Compose 告一段落

tctcab

一直想研究研究docker但没怎么碰到非docker不可的使用案例就搁那儿了。有意思，整理成blog了吗我想看

Cloud2016

tctcab 在稍大一点的公司都是把数据存储在集群上，集群的查询性能是数据分析的一个瓶颈，对数据分析来说，如果集群查询优化不好，一个操作就会耗掉大部分时间。

另外一个耗时的是数据分析环境，在稍大一点的数据集（100M至 GB 级）上跑一个简单的算法，在本地笔记本上都是费劲的，所以需要把数据分析环境放在远端服务器上，减少硬件的影响。

事实上，存储环境和分析环境是完全独立的，我这里图方便，把 docker-compose.yml 写成依赖两个虚拟数据库的样子。

建立数据库连接这一块，实际上，传递的是数据集群的域名，比如你个人博客的网名，不会是 <https://r-graphics.netlify.com/index.html#postgresql> 介绍的 IP 地址，并且是把连接的配置存成独立的DSN文件但是为了说明这个过程，还是写 IP 直观一些，不过可以补充一个介绍。

写博客的话还需要不少时间，我放在 TODO List 里了

Cloud2016

tctcab 简单写了写配置过程 https://xiangyunhuang.github.io/db-in-rmd/db-in-rmd.html

HarryZhu-7harryprince

Cloud2016 在 production 中使用过 docker，实际cost还是比 Travis高。。
本地的 Docker还要占用磁盘资源，多个docker镜像的管理也是比较麻烦，比如几个人都创建了不同的RStudio
Server环境，每个人的 base镜像还不一样，每个一般都要1-2个G，这样 docker pull 下来一堆镜像可能本地磁盘空间就不够了，所以这些事情实际上更多是运维 take 才会有 Gain。

数据分析的环境实际上都是在服务器上直接部署一个 rstudio-server，一般代码都不会在本地写，因为一般要用到spark，需要用到分布式集群。

所以整体看下来 Docker并不太划算。

Cloud2016

HarryZhu-7harryprince

如果是用Travis做测试，我的意思是自定义docker镜像替代你写一堆配置，每次运行都要下载一堆依赖，这能大大减少测试的时间，此外，这种测试可以拓展到 Travis不提供的系统环境，比如 CentOS 。
数据分析环境容器化，肯定是放在远程服务器上，为了大家方便重复我介绍的这套流程，我以 Travis提供的系统环境为复现的环境，而不是我本地的Windows环境或者别的什么系统，我觉得这样做更加透明，直观，也更加可重复！
生产环境中，如果你是工作环境，当然应该加上 RStudio IDE 但是部署环境就不需要了，主要有R包能正常支持运行我一系列自定义的 R Markdown 分析模版即可，至于要不要在部署环境中加上 SparkR 组件看需求。需要指出的是数据库集群，Spark集群等等集群都是在不同的服务器上的，有分配的域名，用户密码，端口就可以连接，我这里以放在容器中的两个数据库为例，重在说明这个配置过程

Cloud2016

原来早有人甚至连编译 R 包的环境都自己动手，见 Rcpp 包<https://github.com/RcppCore/Rcpp/blob/master/.travis.yml>