R里面如何清除内存空间

causu

最近，在用R处理几个千万行的数据，单独读一个文件需要5分钟，每个数据都有性别这个字段。
我现在想计算每个数据的男女频次。
于是用for来分别读取，只读取性别这一个字段，
读一个数据
计算下性别
然后输出
然后rm(data)
然后再gc()

但发现循环下来，读取数据的时间越来越漫长：
1，i = 1的时候，读取数据用了5分钟
2、i = 2的时候，读取数据用了20分钟
3、i = 3的时候，读取数据用了40分钟
4、i = 4的时候，读取数据用了1h
…………
请教各位，如何在for循环里，清楚内存，给后来者使用。

或者有其他更好的途径。

多谢！

Cloud2016

causu 不到万不得已不要使用for循环，先试试 apply 族的函数

yihui

causu 这个需要具体问题具体分析，首先最重要的问题就是，你的文件是什么格式？比如 CSV 文件你要是用 read.csv() 读就会比 readr::read_csv() 慢非常多。也许这一点点改变就可以让你的读取速度快百倍。

你对内存的担忧应该先验证一下（看看系统内存是不是在被逐渐占用），我怀疑并不是内存问题；你用的 rm() 加 gc() 已经是正解了。

Cloud2016 tctcab 不要轻易歧视 for 循环，我觉得很多人觉得 for 循环慢，只不过是以讹传讹。for 循环本身通常不会是最大的罪恶，真正的罪恶往往是循环内部在做什么；之所以大家觉得显式循环慢，是因为把一些不该循环的事情用循环做了，比如那些本来可以轻易向量化的操作。光是循环本身，就算跑一百万步，在我电脑上不过是 15 毫秒的时间而已：

> steps = 1:1000000; system.time(for (i in steps) {})
   user  system elapsed 
  0.013   0.000   0.015

我估计楼主并没有一百万个文件，所以真正花在循环本身的时间微乎其微。耗时的部分在于读文件，所以优化应该从读文件开始。

又及：说 apply() 一族比 for 循环好或者快，基本都是（善意的）谎言，因为！apply() 本身就是 for 循环！apply() 说到底只是一种语法糖而已。

我自己写代码三天两头用 for 循环。

causu

Cloud2016 读取数据，也可以apply？

Cloud2016

causu 如果要读取很多文件的话可以，比如先获取文件名 list.files(Paths)，然后data.table的 fread去读和rbindlist合并 lapply 的结果，至于该不该用 for 循环，在数据处理这个情境下，一般尽量少用，不然 Hadley 的工作岂不是让我等浪费。
yihui 对于Nearly God 的人不受此限制

不到万不得已不要使用for循环

因为他们用的都对，像我这样的，下手前还是要好好想想该用 for 还是 apply 。比如常见的情况：对于大数据框或者矩阵，很多统计工作无非加加减减，排序，匹配等混合着，尽可使用 apply 族和有关小函数

> set.seed(1234)
> A <- matrix(rnorm(10000000*1),nrow = 10^7, ncol =1)
> system.time({steps = 1:10000000; s1 = 0;  for (i in steps) {s1 <- s1 + A[i,1]}})
   user  system elapsed 
   0.61    0.00    0.61 
> system.time( s2 <- apply( A, 2, sum ))
   user  system elapsed 
   0.14    0.02    0.16

其实很久以前数据处理就是

拆分，计算，合并

# 例子取自于 ?split
# 对数据集 airquality的Ozone变量按月做 scale 变换
g <- airquality$Month
l <- split(airquality, g) # 拆分
l <- lapply(l, transform, Oz.Z = scale(Ozone)) # 计算
aq2 <- unsplit(l, g) # 合并

也没有使用 for 循环，在数据处理方面，还是尽量避免 for 。对于正则表达式、管道玩的飞起的大神们也不受此限制

tctcab

假设你的性别栏是

df$sex

那么

table(df$sex)

即可得到性别统计。

不到万不得已不要用循环，又慢又容易出错

tctcab

yihui
确实，向量化才是核心问题。for循环该用的时候当然要用。
但我依然认为"在r里尽量少用for循环"并不是矫枉过正，尤其是数据处理方面，其他语言只能循环来做的问题好多都可以通过向量化函数进行简洁优雅的解决。

单说题主用for循环统计性别这个问题，肯定只是因为题主暂时不知道用table()而已。

另外千万行量级数据是不是用sql+dplyr的解决方案要好一点

causu

yihui 多谢谢大！
确实是读文件上耗时的问题，我的是fread。
确实这类操作，用awk更高效，我只是也想看看R里还有更高效的方式不。

yihui

tctcab 如果只是从一个巨大的文件里读一列做统计，我觉得应该用 awk（不然就该用数据库）。用 R 把整个文件都读进来太浪费了。楼主是中国 R 会议的顶梁柱之一，应该不至于连 table() 函数都不知道。

causu

tctcab 多谢仁兄帮助。

tctcab

yihui
原来题主是个中高手，献丑啦~~ 回到题目，数据库才是终极解决方案。

yihui

Cloud2016 你举的这个慢循环例子正是我说的“在循环内部用了不恰当的操作”，“把不该循环的事情用循环做了”。这里 for 循环和 apply 的对比是不公平的，因为后者是用了基于 C 语言的向量化的函数 sum()，当然会比在 R 层面上显式地一步步相加快很多；换句话说，你对比的是 R 层面上的加法和 C 层面上的加法的速度。公平的对比应该是下面这样。你的例子是对列求和，但数据只有1列，对行显式循环没多大意义。我下面对比的是对列循环，循环和 apply 都调用 sum() 求和，鉴于 apply() 的本质是 for 循环加上一些额外的操作，它一定不会比循环快。

N = 10  # 列数
A = matrix(rnorm(1e7),nrow = 1e7, ncol = N)
system.time({
  s1 = numeric(N)
  for (i in seq_len(N)) {
    s1[i] = sum(A[, i])
  }
})  # 1.090 秒

system.time({
  s2 = apply(A, 2, sum)
})  # 1.851 秒

all(s1 == s2)  # TRUE

当然，这个测速方法也是不科学的，要测速还是得上 microbenchmark，免得受一些其它因素影响（如垃圾回收）。

N = 10
A = matrix(rnorm(1e6),nrow = 1e6, ncol = N)
sum_for = function() {
  s1 = numeric(N)
  for (i in seq_len(N)) {
    s1[i] = sum(A[, i])
  }
  s1
}
sum_apply = function() {
  apply(A, 2, sum)
}

microbenchmark::microbenchmark(sum_for(), sum_apply())

Unit: milliseconds
        expr       min       lq     mean   median       uq      max neval
   sum_for()  96.01921 116.7481 133.9847 119.2918 126.4609 367.2931   100
 sum_apply() 172.35825 191.8426 234.0205 198.7329 237.6927 501.4662   100

causu

Cloud2016 非常赞同“无非是加加减减”的工作，我感觉我绝大多数工作都在各种加加减减、拆分、合并、spread、gather。无非数据量大一些。

Cloud2016

yihui 正解