抛砖引玉：R data.table的几个小技巧

frankzhang21

发现中文世界中，有关于R data.table的内容较少，但我觉得 data.table 其实被大大低估了。本人恰巧使用data.table较多，权当抛砖引玉了。如果有写错了的地方，欢迎各位拍砖。本帖原载于我的个人博客，我就分开楼层发了。本帖会涉及到一些我在使用中发现的小技巧，或者是官方文档中着墨很少的地方。

导入 data.table

library(data.table)

创建example data

dt <- data.table(
  Start_Date = as.Date(c(
    "2019-05-01", "2019-08-04", "2019-07-05",
    "2019-07-04", "2019-04-27", "2019-04-26",
    "2019-02-13", "2019-02-15", "2018-11-26",
    "2018-11-11"
  )),
  End_Date = as.Date(c(
    "2019-06-01", "2019-08-09", "2019-08-14",
    "2019-07-05", "2019-05-10", "2019-05-20",
    "2019-02-16", "2019-03-02", "2018-12-17",
    "2018-11-19"
  )),
  Category = c(
    "Q-Y-M-V", "E-E-E-H", "A-N-T-D",
    "J-T-B-X", "D-R-H-Z", "R-O-C-R",
    "Z-C-A-M", "O-I-J-E", "G-D-K-W", "V-Z-O-B"
  )
)

dt

##     Start_Date   End_Date Category
##  1: 2019-05-01 2019-06-01  Q-Y-M-V
##  2: 2019-08-04 2019-08-09  E-E-E-H
##  3: 2019-07-05 2019-08-14  A-N-T-D
##  4: 2019-07-04 2019-07-05  J-T-B-X
##  5: 2019-04-27 2019-05-10  D-R-H-Z
##  6: 2019-04-26 2019-05-20  R-O-C-R
##  7: 2019-02-13 2019-02-16  Z-C-A-M
##  8: 2019-02-15 2019-03-02  O-I-J-E
##  9: 2018-11-26 2018-12-17  G-D-K-W
## 10: 2018-11-11 2018-11-19  V-Z-O-B

实际操作

拆分一列到多列

dt[, paste0("Category_", 1:4) := tstrsplit(Category, split = "-")][]

##     Start_Date   End_Date Category Category_1 Category_2 Category_3 Category_4
##  1: 2019-05-01 2019-06-01  Q-Y-M-V          Q          Y          M          V
##  2: 2019-08-04 2019-08-09  E-E-E-H          E          E          E          H
##  3: 2019-07-05 2019-08-14  A-N-T-D          A          N          T          D
##  4: 2019-07-04 2019-07-05  J-T-B-X          J          T          B          X
##  5: 2019-04-27 2019-05-10  D-R-H-Z          D          R          H          Z
##  6: 2019-04-26 2019-05-20  R-O-C-R          R          O          C          R
##  7: 2019-02-13 2019-02-16  Z-C-A-M          Z          C          A          M
##  8: 2019-02-15 2019-03-02  O-I-J-E          O          I          J          E
##  9: 2018-11-26 2018-12-17  G-D-K-W          G          D          K          W
## 10: 2018-11-11 2018-11-19  V-Z-O-B          V          Z          O          B

拆分一列到多行

dt[, .(
  Start_Date = Start_Date,
  End_Date = End_Date,
  Category = unlist(strsplit(Category, split = "-"))),
  by = 1:nrow(dt)]

##     nrow Start_Date   End_Date Category
##  1:    1 2019-05-01 2019-06-01        Q
##  2:    1 2019-05-01 2019-06-01        Y
##  3:    1 2019-05-01 2019-06-01        M
##  4:    1 2019-05-01 2019-06-01        V
##  5:    2 2019-08-04 2019-08-09        E
##  6:    2 2019-08-04 2019-08-09        E
##  7:    2 2019-08-04 2019-08-09        E
##  8:    2 2019-08-04 2019-08-09        H
##  9:    3 2019-07-05 2019-08-14        A
## 10:    3 2019-07-05 2019-08-14        N
## 11:    3 2019-07-05 2019-08-14        T
## 12:    3 2019-07-05 2019-08-14        D
## 13:    4 2019-07-04 2019-07-05        J
## 14:    4 2019-07-04 2019-07-05        T
## 15:    4 2019-07-04 2019-07-05        B
## 16:    4 2019-07-04 2019-07-05        X
## 17:    5 2019-04-27 2019-05-10        D
## 18:    5 2019-04-27 2019-05-10        R
## 19:    5 2019-04-27 2019-05-10        H
## 20:    5 2019-04-27 2019-05-10        Z
## 21:    6 2019-04-26 2019-05-20        R
## 22:    6 2019-04-26 2019-05-20        O
## 23:    6 2019-04-26 2019-05-20        C
## 24:    6 2019-04-26 2019-05-20        R
## 25:    7 2019-02-13 2019-02-16        Z
## 26:    7 2019-02-13 2019-02-16        C
## 27:    7 2019-02-13 2019-02-16        A
## 28:    7 2019-02-13 2019-02-16        M
## 29:    8 2019-02-15 2019-03-02        O
## 30:    8 2019-02-15 2019-03-02        I
## 31:    8 2019-02-15 2019-03-02        J
## 32:    8 2019-02-15 2019-03-02        E
## 33:    9 2018-11-26 2018-12-17        G
## 34:    9 2018-11-26 2018-12-17        D
## 35:    9 2018-11-26 2018-12-17        K
## 36:    9 2018-11-26 2018-12-17        W
## 37:   10 2018-11-11 2018-11-19        V
## 38:   10 2018-11-11 2018-11-19        Z
## 39:   10 2018-11-11 2018-11-19        O
## 40:   10 2018-11-11 2018-11-19        B
##     nrow Start_Date   End_Date Category

根据两列生成行（多见于日期的起始)

dt[, .(
  Start_Date = Start_Date,
  End_Date = End_Date,
  Date = seq.Date(Start_Date, End_Date, by = "day"),
  Category = Category
),
by = 1:nrow(dt)
]

##      nrow Start_Date   End_Date       Date Category
##   1:    1 2019-05-01 2019-06-01 2019-05-01  Q-Y-M-V
##   2:    1 2019-05-01 2019-06-01 2019-05-02  Q-Y-M-V
##   3:    1 2019-05-01 2019-06-01 2019-05-03  Q-Y-M-V
##   4:    1 2019-05-01 2019-06-01 2019-05-04  Q-Y-M-V
##   5:    1 2019-05-01 2019-06-01 2019-05-05  Q-Y-M-V
##  ---                                               
## 167:   10 2018-11-11 2018-11-19 2018-11-15  V-Z-O-B
## 168:   10 2018-11-11 2018-11-19 2018-11-16  V-Z-O-B
## 169:   10 2018-11-11 2018-11-19 2018-11-17  V-Z-O-B
## 170:   10 2018-11-11 2018-11-19 2018-11-18  V-Z-O-B
## 171:   10 2018-11-11 2018-11-19 2018-11-19  V-Z-O-B

多列合并

dt[, .(all_category = do.call(paste, c(.SD, sep = "-"))), .SDcols = patterns("\\d$")]

##     all_category
##  1:      Q-Y-M-V
##  2:      E-E-E-H
##  3:      A-N-T-D
##  4:      J-T-B-X
##  5:      D-R-H-Z
##  6:      R-O-C-R
##  7:      Z-C-A-M
##  8:      O-I-J-E
##  9:      G-D-K-W
## 10:      V-Z-O-B

还可以用于多列相加，相乘等。

frankzhang21

导入 data.table

library(data.table)

创建example data

set.seed(42)
dt <- data.table(
  A1 = sample(1:100,10),
  A2 = sample(1:100,10),
  A3 = sample(1:100,10),
  B1 = sample(1:100,10),
  B2 = sample(1:100,10),
  B3 = sample(1:100,10),
  C  = sample(1:100,10)
)
dt

##      A1 A2 A3 B1 B2 B3  C
##  1:  49 37 34 58 99  2 84
##  2:  65 20 92  8 88 58  9
##  3:  25 26  3 36 87 10 35
##  4:  74  3 58 68 49 40 93
##  5:  18 41 42 86 26  5 16
##  6: 100 89 24 18  6 33 92
##  7:  47 27 30 92 95 49 69
##  8:  24 36 43 69  2 73 95
##  9:  71  5 15  4  3 29  2
## 10:  89 84 22 50 21 76 82

Filter多列

所有列都要大于20

# 当有NA时注意使用 na.rm = TRUE
dt[rowMeans(dt>20)==1]

##    A1 A2 A3 B1 B2 B3  C
## 1: 47 27 30 92 95 49 69
## 2: 89 84 22 50 21 76 82

任意列 > 90

# 当有NA时注意使用 na.rm = TRUE
dt[rowSums(dt>90)>0]

##     A1 A2 A3 B1 B2 B3  C
## 1:  49 37 34 58 99  2 84
## 2:  65 20 92  8 88 58  9
## 3:  74  3 58 68 49 40 93
## 4: 100 89 24 18  6 33 92
## 5:  47 27 30 92 95 49 69
## 6:  24 36 43 69  2 73 95

所有列（除了C）> C

dt[dt[,Reduce("&",lapply(.SD,">",C)),.SDcols = !c("C")]]

##    A1 A2 A3 B1 B2 B3 C
## 1: 71  5 15  4  3 29 2

任意列（除了C）> C

dt[dt[,Reduce("|",lapply(.SD,">",C)),.SDcols = !c("C")]]

##     A1 A2 A3 B1 B2 B3  C
## 1:  49 37 34 58 99  2 84
## 2:  65 20 92  8 88 58  9
## 3:  25 26  3 36 87 10 35
## 4:  18 41 42 86 26  5 16
## 5: 100 89 24 18  6 33 92
## 6:  47 27 30 92 95 49 69
## 7:  71  5 15  4  3 29  2
## 8:  89 84 22 50 21 76 82

cbind

Base R

dt2 <- copy(dt)

# base R
cbind(dt,dt2)

##      A1 A2 A3 B1 B2 B3  C  A1 A2 A3 B1 B2 B3  C
##  1:  49 37 34 58 99  2 84  49 37 34 58 99  2 84
##  2:  65 20 92  8 88 58  9  65 20 92  8 88 58  9
##  3:  25 26  3 36 87 10 35  25 26  3 36 87 10 35
##  4:  74  3 58 68 49 40 93  74  3 58 68 49 40 93
##  5:  18 41 42 86 26  5 16  18 41 42 86 26  5 16
##  6: 100 89 24 18  6 33 92 100 89 24 18  6 33 92
##  7:  47 27 30 92 95 49 69  47 27 30 92 95 49 69
##  8:  24 36 43 69  2 73 95  24 36 43 69  2 73 95
##  9:  71  5 15  4  3 29  2  71  5 15  4  3 29  2
## 10:  89 84 22 50 21 76 82  89 84 22 50 21 76 82

data.table way

setDT(unlist(list(dt,dt2),recursive = FALSE),check.names = TRUE)[]

##      A1 A2 A3 B1 B2 B3  C A1.1 A2.1 A3.1 B1.1 B2.1 B3.1 C.1
##  1:  49 37 34 58 99  2 84   49   37   34   58   99    2  84
##  2:  65 20 92  8 88 58  9   65   20   92    8   88   58   9
##  3:  25 26  3 36 87 10 35   25   26    3   36   87   10  35
##  4:  74  3 58 68 49 40 93   74    3   58   68   49   40  93
##  5:  18 41 42 86 26  5 16   18   41   42   86   26    5  16
##  6: 100 89 24 18  6 33 92  100   89   24   18    6   33  92
##  7:  47 27 30 92 95 49 69   47   27   30   92   95   49  69
##  8:  24 36 43 69  2 73 95   24   36   43   69    2   73  95
##  9:  71  5 15  4  3 29  2   71    5   15    4    3   29   2
## 10:  89 84 22 50 21 76 82   89   84   22   50   21   76  82

生成多列

使用set

#注意区别于lapply使用的场景

for (i in 1:3) {
  set(dt2,j = paste0("diff","_",i),value = dt[[paste0("A",i)]] - dt[[paste0("B",i)]])
}
dt2

##      A1 A2 A3 B1 B2 B3  C diff_1 diff_2 diff_3
##  1:  49 37 34 58 99  2 84     -9    -62     32
##  2:  65 20 92  8 88 58  9     57    -68     34
##  3:  25 26  3 36 87 10 35    -11    -61     -7
##  4:  74  3 58 68 49 40 93      6    -46     18
##  5:  18 41 42 86 26  5 16    -68     15     37
##  6: 100 89 24 18  6 33 92     82     83     -9
##  7:  47 27 30 92 95 49 69    -45    -68    -19
##  8:  24 36 43 69  2 73 95    -45     34    -30
##  9:  71  5 15  4  3 29  2     67      2    -14
## 10:  89 84 22 50 21 76 82     39     63    -54

使用Map

A_cols <- grep("A",names(dt),value = TRUE)
B_cols <- grep("B",names(dt),value = TRUE)
new_diff_cols <- paste0("diff","_",1:3)

dt2[,(new_diff_cols) := Map("-",mget(A_cols),mget(B_cols))][]

##      A1 A2 A3 B1 B2 B3  C diff_1 diff_2 diff_3
##  1:  49 37 34 58 99  2 84     -9    -62     32
##  2:  65 20 92  8 88 58  9     57    -68     34
##  3:  25 26  3 36 87 10 35    -11    -61     -7
##  4:  74  3 58 68 49 40 93      6    -46     18
##  5:  18 41 42 86 26  5 16    -68     15     37
##  6: 100 89 24 18  6 33 92     82     83     -9
##  7:  47 27 30 92 95 49 69    -45    -68    -19
##  8:  24 36 43 69  2 73 95    -45     34    -30
##  9:  71  5 15  4  3 29  2     67      2    -14
## 10:  89 84 22 50 21 76 82     39     63    -54

tctcab

很有用的资料！

不过只有标题+代码的话有点干，个人建议多增加对代码/功能/目的的说明，让内容更丰满翔实一点

frankzhang21

tctcab

等我有空好好写一下，省的过段时间自己都看不懂了 😄

Jonie_Y

知乎有挺不错的材料。
R数据处理|data.table篇（一）
R数据处理|data.table篇（二）
R数据处理|data.table篇（三）

细节补充
R语言学习笔记之——数据处理神器data.table

frankzhang21

Jonie_Y

哇他这个好详细。

我就只准备记录一些比较特殊的用法 😆 省的重复啦

CMCai0104

感觉r对新人的支持不太好，百花开放也让新人无从下手，特别是现在的数据处理方式。

社区几位大神组织下写个R的基础数据处理、统计分析、绘图、rmarkdown、机器学习的比较全面的tutorials。

Fye

请问如何把一列string 拆除两列？比如如果有一列是姓名 lastname, firstname，如何拆成两列？🙂

dapengde

Fye sapply(数据框$名字, function(x) strsplit(x, ",")[[1]])

frankzhang21

yihui 是的，我觉得 vapply 可以取代所有 sapply的使用场景，更加安全。

Fye 可以使用 tstrsplit

library(data.table)
dt <- data.table(
  Category = c(
    "Q-Y-M-V", "E-E-E-H"
  )
)

dt[, paste0("Category_", 1:4) := tstrsplit(Category, split = "-")][]
#>    Category Category_1 Category_2 Category_3 Category_4
#> 1:  Q-Y-M-V          Q          Y          M          V
#> 2:  E-E-E-H          E          E          E          H

tstrsplit 基本就是strsplit的一个wrapper. 它就是把拆分出来的第一部分作为一个list，第二部分作为list....

小彩蛋一枚：如何只根据最后一个-拆分，即把 Q-Y-M-V 拆分为 Q-Y-M 与 V

dt[, paste0("Category_", c("1_2_3","4")) := tstrsplit(Category, split = "-(?=\\w$)", perl=TRUE)][]
#>    Category Category_1_2_3 Category_4
#> 1:  Q-Y-M-V          Q-Y-M          V
#> 2:  E-E-E-H          E-E-E          H

使用正向先行断言（怎么这么拗口）即可。

yihui

dapengde sapply() 基本上是显式循环，太慢了（而且返回结果类型难以预测，所以一般尽量避免 sapply()）；strsplit() 可以向量化操作，分完之后把两个一组的元素绑成矩形数据就好了。

do.call(rbind, strsplit(数据框$名字, ", "))

# 也许这样更快一些，我不确定
matrix(unlist(strsplit(数据框$名字, ", ")), byrow = TRUE, ncol = 2)

也许 data.table 有更快捷的操作，就等楼主来回答了。

Fye

frankzhang21 你这个正向先行断言的链接太赞了。问个小白问题：正则表达是多数语言通用的吗？

Cloud2016

Fye 所有语言通用，细微差别还是会有的

songxiao

一篇对比data.table和Python的pandas语法的博文：
data.table 与 pandas