在R 中用 system.time 函数统计代码运行时间时，user system elapsed 分别代表什么含义？

yuanfan

如题，楼主在 rstudio server 中执行一段代码，用system.time()函数统计代码运行时间，此时默认单线程计算，随后又使用并行计算，分别用3个线程、30个线程跑了一下，但统计的时间让楼主感到有点奇怪。楼主只知道 elapsed 是指整段代码从开始到结束的运行时间，一般情况下不是线程越多跑得越快吗？由于30个线程还没单线程跑得快，楼主猜了两点：

可能是因为运行的代码其实规模不大，启用30个线程的话，把数据和包加载到每个线程上都会占用很多时间。
elapsed 在单线程的时候统计的是代码总的运行时间，但是在多线程的时候统计的是所有线程运行时间之和？

如果知道 user system 所指代的具体含义，大概就能知道具体原因了，但是在网上搜索的内容没有看懂，所以特来提问。

基本代码如下：

library(glmnet)
X <- matrix(rnorm(6e5 * 200), 6e5, 200)
Y <- rnorm(6e5)
system.time(cv.glmnet(X, Y))

单线程

    user  system elapsed 
 163.500  28.011 191.452

3个线程

   user  system elapsed 
 31.789   7.211 108.479

30个线程

  user  system elapsed 
 75.145  25.664 207.726

lyxmoo

yuanfan

“User”时间指运行此程序使用CPU的时间

“System”时间指程序中的一些诸如打开、关闭文件，分配、释放内存，执行系统指令等等的CPU时间，也不包括其它进程占用的时间；

“Elapsed”时间则指实际执行时间。

fenguoerbian

Cloud2016 yuanfan

哈哈，实操中有好多问题，我也不是都能解答。

system.time的结果来自于proc.time，具体的含义可以在文档里看看，但是我其实也不完全明白。对于纯粹的单线程运行而言，基本应该是user + system = elapsed的关系，但是并行的程序就不一定了。不过总归elapsed应该就是对应着电脑前的用户等了多久的时间。
问题本身确实复杂度不够，以glmnet处理的回归问题而言，变量数是比较主导复杂度的，也就是这里x的列数，目前只有200，其实复杂不高。
cv.glmnet的内部应该是对完整数据跑一次glmnet,然后根据用户设定的cv折数（默认应该是nfolds = 10折），跑nfolds个小的glmnet，而它的并行就是在这个位置，是用foreach框架的。那么理想状态，并行版本应该最好情况下只需要2次glmnet的时间，单线程版本需要nfolds + 1次glmnet的时间。不过实际情况看起来显然不是这样的……
并行计算是有额外开销的，比方说这里你可以通过增加数据的规模来增大单次计算消耗的时间，但增大的数据规模也意味着后面并行的时候每次分配任务也需要把一个更大的数据发送给子线程。或者还有一些其它的开销。这些都会抵消并行计算带来的速度提升。
关于该怎么设置并行数量，大方向一定是边际效用递减的，但具体的我其实没有什么特别好的方法，只是凭经验调一调。比方说我会先跑一次单线程版本的，观察一下CPU、内存的最大消耗情况。然后以此为基准，按照每份并行都需要同样的消耗，就能得到一个可以设置的上限，之后再这个基础上做一些不同并行数量的测试，尽量找一个甜点。比方说我曾经有一段代码，测试下来并行8线程的消耗是4线程的双倍，但速度一样，那就没有必要把并行线程的数量设置到8了。
我个人没有太多slurm集群的经验，曾经用服务器时候也不是非常在意物理核心和逻辑核心的区别。
跑benchmark的话，其实有很多地方要控制。比方说虽然你的R是单线程，但是你的底层BLAS是openblas，或者你的C代码用了OpenMP，这些都会导致看似单线程的R实际是多线程运行，盲目开并行可能并不会有那么多收益。我这次用的

RhpcBLASctl::omp_set_num_threads(1)
RhpcBLASctl::blas_set_num_threads(1)

和

parallel::clusterEvalQ(cl, RhpcBLASctl::omp_set_num_threads(1))
parallel::clusterEvalQ(cl, RhpcBLASctl::blas_set_num_threads(1))

控制主线程和子线程的底层运算都是单线程的。

以下开始一些我不能理解的内容：

# 生成数据并传递给子线程
x <- matrix(rnorm(3e5 * 800), 3e5, 800)
y <- rnorm(3e5)
cl <- parallel::makeCluster(2)
parallel::clusterExport(cl, c("x", "y"))

# 单线程的glmnet
system.time(res <- glmnet(x, y, nlambda = 100, type.gaussian = "covariance"))
 #  user  system elapsed 
 # 79.618   1.495  81.052 
# 每个并行核心上跑一次glmnet
system.time({
    parallel::clusterEvalQ(cl, res <- glmnet(x, y, nlambda = 100, type.gaussian = "covariance"))
})
#   user  system elapsed 
#  0.299   0.203 100.450

这里我已经刻意增加了x的列数、采用高维时更慢的type.gaussian = "covariance"参数，并提前传递了x和y，但是纯粹的并行重复还是比单线程单次运算多出了20%的时间，这个瓶颈的原因我其实并不是完全理解。

而后面更不能理解的是在线性回归上的发现：

system.time({
    res <- parallel::parLapply(cl, 1 : 2, function(id){
        tmp <- lm(y ~ x)
        return(0)
    })
})
#   user  system elapsed 
#  0.681   0.454 195.330 

system.time({
    res <- lapply(1 : 2, function(id){
        tmp <- lm(y ~ x)
        return(0)
    })
})
#   user  system elapsed 
# 283.117   5.736 288.891

显然在lm上这个瓶颈也非常明显。2个lm，并行同时运行一次190s，但是单线程重复2次也才288s。

system.time({
    res <- parallel::parLapply(cl, 1 : 2, function(id){
        tmp <- solve(t(x) %*% x) %*% t(x) %*% y
        return(0)
    })
})

#  user  system elapsed 
#   0.082   0.052  30.227 

system.time({
    res <- lapply(1 : 2, function(id){
        tmp <- solve(t(x) %*% x) %*% t(x) %*% y
        return(0)
    })
})

#   user  system elapsed 
#  55.217   4.427  59.624

但是如果只看线性回归里最核心的运算，这个并行效率的提升又非常完美了。所以我也不明白lm和glmnet里到底是哪些内容的瓶颈这么大。

yuanfan

设定多线程运行的代码如下：

# 多线程并行
library(foreach)
library(iterators)
library(parallel)
library(doParallel)

# 检查一下服务器上面的 CPU 核数
detectCores(logical = F)

# 设定核数，创建一个用于并行计算的虚拟集群
cl <- makeCluster(30)

# 注册并行后端
registerDoParallel(cl)

# 检查注册并行后端是否生效，假如设定8核会得到数字8
getDoParWorkers()

# 把要用到的包和全部对象（包括数据）加载到后端
clusterExport(cl, c('X','Y'))
clusterEvalQ(cl,expr= { library(glmnet) })

system.time(cv.glmnet(X, Y,parallel = TRUE))

# 关闭隐式集群对象，即用 registerDoParallel() 函数注册的并行后端
stopImplicitCluster()

# 关闭显式集群对象，即用 makeCluster() 函数创建并赋值给某个变量的集群对象
stopCluster(cl)

yuanfan

lyxmoo
我试了一下用多个节点，每个节点设置不同的线程来跑，结果如下，那么其实总的花的时间是多少呢？而且一个节点上设置多个线程的话，那个 user 的时间不该是减少么，怎么第一个节点设置1个线程、第2个节点设置2个线程、第三个节点设置3个线程的 user 时间差不多呢？

[[1]]
user system elapsed
154.321 24.551 178.883

[[2]]
user system elapsed
169.498 38.394 123.378

[[3]]
user system elapsed
162.175 36.903 94.916

代码大致如下：

library(snow)

workerList <- list(
list(host = "xx.xx.x.84", port = 10187, outfile = "~/log1.log", rshcmd = "ssh -p 22"),
list(host = "xx.xx.x.84", port = 10188, outfile = "~/log2.log", rshcmd = "ssh -p 22"),
list(host = "xx.xx.x.85", port = 10187, outfile = "~/log3.log", rshcmd = "ssh -p 22"))

cl <- makeCluster(workerList, type="SOCK", master="xx.xx.x.84")

clusterSetRNGStream(cl)

clusterExport(cl, c('X', 'Y'))
clusterEvalQ(cl,expr= { library(glmnet) 
  library(doParallel)})

clusterApply(cl, 1:length(cl), function(x) {
  if (x == 1) {
    registerDoParallel(cores = 1)
  } else if (x == 2) {
    registerDoParallel(cores = 2)
  } else {
    registerDoParallel(cores = 3)
  }
  system.time(cv.glmnet(X, Y, parallel = TRUE))
})

stopCluster(cl)

Cloud2016

从 3 个线程到 30 个线程反而变慢了的可能原因

回归问题规模、复杂度还是太小了，发挥不出多线程的实力，线程越多导致线程之间通信花费的时间越多，而且不比跑模型的时间短。
假设计算机本身硬件只支持 4 核 8 线程，这个时候，开超出 8 个线程的并行，并没有用，会起负作用。
并行数量要根据数据规模和硬件线程数量来定。

yuanfan

Cloud2016

假设计算机本身硬件只支持 4 核 8 线程，这个时候，开超出 8 个线程的并行，并没有用，会起负作用。

我用detectCores(logical = F)这个来查看服务器节点上实际可用的CPU核心数，在看到你提出这点以前，我把CPU核心数和线程数当做一个概念了，就是用这个函数来查看可用线程数。回头我找找服务器上面这个核心数、线程数有撒区别，该怎么检查。

并行数量要根据数据规模和硬件线程数量来定。

这就是我现在遇到的问题了，怎么定呢？如何知道当前我要跑的数设置多少线程最合适呢？是随机瞎碰乱试呢，还是可以根据数据大小比如几MB几GB、或者模型复杂度来瞎碰乱试呢？

我在隔壁发现 pkgsearch 那个帖子，本来其实是为了找 R 里面自带的数据集的，瞎找了一会发现都很小，就随便造了数来测试如何设置线程数的问题。

Cloud2016

yuanfan 大前提是不能超过硬件本身支持的线程数，假设线程充足，采用了 10 折交叉验证，那么并行数量可以设置为 10 。其实，我也基本不懂，我 AT @fenguoerbian 来给我们指导一下。

yuanfan

Cloud2016
是的，不同情况下，在可以并行且需要并行的时候，线程数咋设定也是个问题。我之前在用另一个支持并行计算的包时也会遇到这个问题。

看起来，线程数如何设定分为两个问题：一是，使用并行时，设定并行线程时该如何结合具体问题来考量，就比如10折交叉验证，是否设置可以被10整除的线程数更合适；二是，如何根据数据量等来判断设定几线程最快出结果。

yufree

集群上不要用 detectCores() 找可用核心数，不管是否logical，返回的都是服务器节点上核心数，得用 parallelly::availableCores() 或 future::availableCores() 找可用核心数。

集群上不用管线程或物理CPU个数，测出多少核心那个数做并行参考就是准的。

并行速度慢原因大概率是任务过于简单而核心过多，此时单核计算时间短而创建并行分配任务过程用时过长，如果你任务量不大核心数多了没啥好处，并行无优势。

最好有实际可并行问题再考虑开并行，而且R对内存胃口非常大，我已经把两个3T内存的节点干下线了。

yuanfan

yufree
执行detectCores(logical = F)、parallelly::availableCores()、future::availableCores()这三个得到的可用核心数是一样的。在此之前我用一些 Linux 命令在服务器上查，得到的也是一样的。

以我的水平，我只知道，我不知道，自己不知道。原本看湘云说核数、线程数不一样已经感到很迷惑了，现在看三水说可用核心数、服务器节点核心数更迷惑了。

其实我本来是用 glmnet 包的 cv.glmnet 函数做交叉验证筛选特征，偶然发现这个包支持多线程的隐式并行计算，所以想试试遇到不同的数据量、特征数时，设定多少个线程最快。我之前以为会存在一个固定的规律，依目前的情况看，瞎碰乱试之后也没有找到撒规律。也由于我之前没有在 R 自带数据集里面找到一个数据量足够大的，所以发帖时只是按照https://glmnet.stanford.edu/articles/glmnet.html#predicting-and-plotting-with-glmnet-objects
里的例子随便试试。

yuanfan

yuanfan
执行detectCores(logical = F)、parallelly::availableCores()、future::availableCores()这三个得到的可用核心数是可能会不一样的。我在一个节点上的 Rstudio Server 上查，一样：

> parallelly::availableCores()
system 
    40 
> future::availableCores()
system 
    40 
> detectCores(logical = F)
[1] 40

但是换别的地方再查，真得不一样了：

> future::availableCores()
mc.cores 
      16 
> parallelly::availableCores()
mc.cores 
      16 
> detectCores(logical = F)
[1] 48

俺等着哪位神仙来帮忙解答一下，为撒会这样。

yufree

yuanfan 我单纯好奇你们集群用啥调度任务，slurm还是lsf，按说你提交任务时已经指定任务核心数了，为啥会出现在节点上现找的情况？
我说的情况只出现在使用任务调度的集群计算上，detectCores 会直接返回硬件上核心数，但你可用的核心数是集群上slurm跟lsf这类调度器脚本来指定的，所以你找到16个核不代表你能用16个，得看你slurm脚本里制定那个数，默认是1，这也是availableCores能做到的。假设你设定使用1个核心，如果你用的R包调用detectCores去决定并行计算的核心数，那么会认为16个核都能用，然后会比单核更慢，毕竟分配并行任务后又实际上互相等待很浪费时间。此时集群上跑的代码要针对性修改一下，不然越跑越慢。

Cloud2016

yuanfan 将计算量和数据量尽可能平均分配，就交叉验证这个步骤来说，如果资源充足，并行数量设置为 10，不太充足，设置为 5，很不充足，设为 2。目前，给的问题还是比较简单的，其实，还需要考虑数据和计算将要花销的内存的，内存资源也是一个限制，光考虑核心还不够的。

Cloud2016

yuanfan 俺等着哪位神仙来帮忙解答一下，为撒会这样。

你得先说明下你是在个人笔记本电脑，个人工作站电脑，单个节点的服务器还是集群服务器？
就我的个人笔记本电脑来说，如下：

parallel::detectCores(logical = F)
#> [1] 6

future::availableCores()
#> system 
#>     12

parallelly::availableCores()
#> system 
#>     12

<sup>Created on 2023-04-14 with reprex v2.0.2</sup>

是一颗 CPU 2.6 GHz 六核 Intel Core i7。也就是说，我只有一个物理的处理器，里面有 6 个物理核，虚拟出来 12 个逻辑核。在实际使用中，最大可以用 8 个左右，会看到有 8 个进程（进程名称一样，PID 进程编号不同）同时跑任务，还有 4 个留着供其他软件和系统正常运行。

下面是四个并行跑的情况。

stan-cpu

stan-memory

yuanfan

yufree
三水啊，你好奇的问题我没看懂，因为我没有在集群上用撒调度任务。我在服务器的单个节点上安装了 R 和 Rstudio Server，使用 R 都是在 Rstudio Server 上面，比如上面贴的那些代码，就是在一个 R Markdown 文档里面直接执行的。

截至当前，我都是在直接在 Rstudio Server 跑代码，前面单节点多线程的情况，就是先查看可用核心数，然后指定并行线程数。至于跨多节点的情况，也是因为在多个节点上都安装了 R 和 Rstudio，配置了多个节点之间互相可以免密登录，然后还是在主节点的 Rstudio Server 上面跑代码。

我平时跑的数据量其实还并不需要用到多节点的资源，只是刚好最近开始了解并行，单节点多线程很简单就能上手，所以顺带鼓捣一下试试多节点咋弄。至于前面所说登录服务器用 Linux 命令查一下可用核数，并不是当时要在节点上现找，而是我对可用线程数这个概念开始糊涂了，所以除了在 R 上面查，也直接查查服务器，多方验证比对一下，看到底理解出错的地方在哪里。

哎呀，说到底，还是因为我只知道我不知道自己不知道。至于你提到的集群调度任务，对现在的我来说超纲了，本新手去了解一下看看是撒先。

yuanfan

fenguoerbian
分果而瓣呀，你的回帖，本无知新手获益良多，但是有些地方没大看懂。

比方说我会先跑一次单线程版本的，观察一下CPU、内存的最大消耗情况。然后以此为基准，按照每份并行都需要同样的消耗，就能得到一个可以设置的上限，之后再这个基础上做一些不同并行数量的测试，尽量找一个甜点。

这里的甜点是撒意思？本新手在本帖最初发的内容都仅仅只是在比对执行速度，从这里才开始知道要考虑资源消耗。这里CPU、内存的最大消耗情况是咋看的？我之前只知道看一下并行线程跑起来的时候，那个节点的CPU利用率是不是不是0，如果是0的话说明即使R没报错，但是也有问题。至于内存消耗也没关注过，就简单粗暴地理解成只要没爆就行，基本不管。所以你说的甜点是不是类似于方差、偏差的均衡，大概就是资源消耗和运行速度的均衡？可是为撒要管资源消耗的问题呢，只要不弄死就可以继续活过来，不就行了么……

控制主线程和子线程的底层运算都是单线程的。

本无知新手瞎碰乱试的都是隐式并行，就是像 cv.glmnet 函数里设置parallel = TRUE就完事了，至于具体每个线程咋拆分任务的没管过。之前只知道要用多个节点的资源需要设置主节点和从节点，主线程和子线程的划分不知道咋分的，我还以为只要设置了比如4个线程，这4个线程都是平等平均分配的呢。

fenguoerbian

yuanfan

对，甜点就是sweet spot，就是一个均衡的位置，就像我前面举的那个例子：从单线变成2线的时候，时间确实减半了；再提升到4线，虽然有提升但是时间已经不是减半了；等提升到8线的时候，计算资源的消耗倒是完美的再次翻倍，结果速度完全没变……于是我的选择就是4线是比较合适的了。

资源确实是不爆就可以，我提议的从单线程的观察一下资源消耗就是为了先有个大概的资源消耗的概念，应为这是个短板效应，CPU、内存这些，任何一个爆了你的并行也就over了。就像我在当初china R上自己的例子，那个计算其实很简单，我的CPU完全能接受并行给所有核心，但是每一个线程计算时需要15G的内存，那么我自己这台32G内存的机器其实至多只能并行2跳线了。

置于看资源消耗，其实就是各种资源管理器然后自己在跑程序的时候盯着呗，linux下面的话，top，htop，btop各种程序都可以看，需要关注显卡的消耗的还有nvtop，nvidia-smi, rocm-smi等等。

线程、进程等相关的概念

我其实不是计算机科班，所以我完全分不清进程、线程这些概念，在我的交流中这些词完全是等价混用不做区分，然后希望听众能明白我在说什么……在这些并行里你开出来的线程它们都是平等的。其实我这里说的“主线程和子线程”，指的是我作为单线程测试的main R session，以及通过makeCluster开出来的并行的“子”线程。

yuanfan

话说最近俺稍微尝试了一下大佬们推荐的 future 包，一样的数据，但是执行了好几次得到的时间是有点差异的，前面3次那个执行时间居然是逐渐减少的，到后面几次才固定。难道使用 future 做并行计算跟用空气炸锅烤东西一样，要先预热吗？下面依次是第1次执行到第5次执行的结果。

   user  system elapsed 
169.573  34.329 203.810 

   user  system elapsed 
155.285  27.134 182.334 

   user  system elapsed 
149.068  24.170 173.162 

   user  system elapsed 
149.286  24.465 173.685 

   user  system elapsed 
149.756  24.298 173.434

代码如下

library(future)
library(glmnet)

# 设置计算资源为单节点多线程
plan(multicore, workers = 3) 

# 设置全局变量大小限制为1GB,future.globals.maxSize单位为KiB，而不是MiB
options(future.globals.maxSize = 1000000000)

# 创建一个数据集
X <- matrix(rnorm(6e5 * 200), 6e5, 200)
Y <- rnorm(6e5)

# 使用future包进行并行cv.glmnet计算，并输出结果
# 设置生成随机数种子，否则可能会无法通过future.rng.onMisuse的检查
result <- future({
  system.time(cv.glmnet(X, Y))
}, seed = TRUE) 

closeAllConnections()

v <- value(result)
v

yuanfan

yuanfan
楼上翻车了，原因见这个帖子。

话说俺把楼上各位小伙伴们提到的几点经验总结到了一起，捋了一篇博客，见https://yuanfan.rbind.io/project/glmnet-parallel/。

wglaive

yuanfan 单独解释这个”现象“的话倒是有另外一种可能，因为1. cpu有缓存，2. cpu会“预判”下一个指令。如果重复执行一段代码，那是有理论上的可能性触发这个机制，导致运算变快。
参考这个科普视频