在 Rstudio 中，运行 Ctrl+Shift+a 会将选定的代码自动美化。但是会破坏 data.table 的 chaining，例如： dt_iris <- data.table(iris) dt_iris[Sepal.Length > 5, lapply(.SD, mean), .SDcols = 2:3, by = Species][ order(Sepal.Width) ] 对这段代码 Ctrl+Shift+a 会变成： dt_iris <- data.table(iris) dt_iris[Sepal.Length > 5, lapply(.SD, mean), .SDcols = 2:3, by = Species][order(Sepal.Width)] 将两个方括号放到一行了。而我希望，它可以反过来：我对下面的代码 Ctrl+Shift+a 得到上面的代码。理想状态是当一行代码有不止一对方括号时，它可以像处理花括号一样处理方括号（自动缩进换行等等）。不知道是否可以实现，先谢过各位大侠！

好像没有什么好办法。但是可以自己利用 styler 包 create一个style 。

data.table 在 Rstudio 运行 Ctrl+Shift+a 自动 format 代码问题

yusong

frankzhang21 看起来很复杂的样子，我还是自己手动吧😂。

caimiao0714

我一般会用pipe function把几个data.table操作连接起来，我个人觉得这样看起来比较清楚。不知道会不会对你有帮助。比如：

dt_iris <- data.table(iris)
dt_iris %>% 
    .[Sepal.Length > 5, lapply(.SD, mean), .SDcols = 2:3, by = Species] %>% 
    .[order(Sepal.Width)]

yusong

caimiao0714 但是这个管道会影响速度（虽然我数据量不大）。

tctcab

看推上讨论说管道符要并入baseR了，开心

yusong

tctcab 那baseR的一些函数是不是要重写了？跟Tidyverse等函数一样，将函数的第一个参数统一为data。

caimiao0714

yusong 我自己实际使用过程中用没觉得速度有因为函数受到太大影响（3千万左右的数据）。数据量不大的话就更不是问题了吧。

yusong

caimiao0714 管道对速度的影响还跟具体的任务有关 https://stackoverflow.com/questions/35933272/why-is-using-dplyr-pipe-slower-than-an-equivalent-non-pipe-expression-for/35935105
不过，我同意这个对不大的数据是没有什么影响的。

caimiao0714

yusong 这个benchmark是在tidyverse的语法里面进行的，不知道对于data.table的update by reference的机制，管道函数的影响有多大？我感觉应该影响会小一些，不知道有没有相关的benchmark结果？

yusong

caimiao0714 应该也会有影响的，可以做一个 benchmark

yusong

caimiao0714 就这个问题，差别很小：
a 是data.table管道，b 是%>% 管道的。
Unit: milliseconds

expr    min      lq     mean  median      uq    max neval
    a 1.8662 1.96935 2.506773 2.19535 2.71815 8.9969   100
    b 2.0936 2.18555 2.687158 2.42140 2.79090 7.0674   100

caimiao0714

yusong 中位数还是有差别的，这是100次的结果吗还是一次的？不知道如果把同样的函数scale到需要20分钟的级别，差距会是2分钟还是0.2 milli seconds。

yusong

caimiao0714 这是运行5000次的：

Unit: milliseconds
 expr    min      lq     mean median      uq     max neval
    a 1.8473 2.07545 2.567429 2.2952 2.83055 22.2199  5000
    b 2.0715 2.31290 2.838893 2.5597 3.08615 22.0069  5000