R语言round函数修约规则与数值精度问题

snotman

最近算一个数发现R和SAS在round过程中会出现不一致问题，SAS的ROUND函数使用"四舍五入"规则修约，而R的round使用“四舍六入五成双”修约。

当5后有数时，舍5入1；当5后无有效数字时，需要分两种情况来讲：
（1）5前为奇数，舍5入1；
（2）5前为偶数，舍5不进（0是偶数）。

（所以X.XXXX5需要修约掉这个5，那么修约之后的最后一位一定是个偶数）

R语言虽然是四舍六入，但又不完全是，比如：

test<-data.frame(
    a=seq(0.105,0.195,by=0.01),
    b=round(a,2),
    c=sprintf("%.22f",a)
    )
 test

输出结果如下

       a    b                        c
1  0.105 **0.11** 0.1050000000000000099920
2  0.115 0.12 0.1150000000000000049960
3  0.125 0.12 0.1250000000000000000000
4  0.135 0.14 0.1350000000000000088818
5  0.145 **0.15** 0.1450000000000000177636
6  0.155 0.16 0.1550000000000000266454
7  0.165 0.16 0.1650000000000000077716
8  0.175 0.18 0.1750000000000000166533
9  0.185 0.18 0.1849999999999999977796
10 0.195 0.20 0.1950000000000000066613

虽然round函数严格执行了四舍六入五成双，但是R语言默认的double数值又让结果难以预测。
按照道理，当被修约的数是5，且后面无有效数字，则奇进偶不进。

（想起了十几年前在这里看见的一个帖子【请教】round四舍五入问题，可惜了，时过境迁，没这么多活跃的人了。）于是查看了精确值，发现可能是因为双精度结果凛然难以捉摸？

更让人难以琢磨的是，这似乎和储存方式有关，前面的例子用的是data.frame,
直接使用向量：

test<-c(0.105,0.115,0.125,0.135,0.145,0.155,0.165,0.175,0.185,0.195)
test
round(test,2)

您猜怎么着

> test
 [1] 0.105 0.115 0.125 0.135 0.145 0.155 0.165 0.175 0.185 0.195
> round(test,2)
 [1] 0.10 0.12 0.12 0.14 0.14 0.16 0.16 **0.17** 0.18 0.20

如果单拉出来

> round(0.145,2)
[1] 0.14
> round(0.175,2)
[1] 0.17

使用最近流行的tibble

library(tidyverse)

test<-tibble(
    a=seq(0.105,0.195,by=0.01),
    b=round(a,2),
    c=sprintf("%.22f",a)
    )

test

结果也不一样哦

> test
# A tibble: 10 × 3
       a     b c                       
   <dbl> <dbl> <chr>                   
 1 0.105  0.1  0.1049999999999999961142
 2 0.115  **0.11** 0.1149999999999999911182
 3 0.125  0.12 0.1250000000000000000000
 4 0.135  0.14 0.1350000000000000088818
 5 0.145  0.14 0.1449999999999999900080
 6 0.155  0.16 0.1549999999999999988898
 7 0.165  0.16 0.1649999999999999800160
 8 0.175  **0.17** 0.1749999999999999888978
 9 0.185  0.18 0.1849999999999999977796
10 0.195  0.2  0.1950000000000000066613

FDA已经开始接受R语言递交的结果了，我有点好奇这个数值修约问题会不会被关注。

meeeeeeeeo

snotman FDA已经开始接受R语言递交的结果了，我有点好奇这个数值修约问题会不会被关注。

看到这有点想吐槽，几年前身边对这个问题的讨论都把重心放在了“如何在 R 中实现和 SAS 一模一样的结果“，而不是 R 中的结果是否正确或者可解释，最终能否满足递交需求。
给我的感受像是技术人员自己给自己画了个圈，然后把自己关了进去，并且要求新的事物要先和圈一致，才能开始和圈内的事物比较

nan.xiao

这件事确实很重要，而且有人专门研究过了，结论是不同的语言都正确实现了各自所述的舍入方法：https://psiaims.github.io/CAMIS/Comp/r-sas_rounding.html

但是R语言默认的double数值又让结果难以预测

我相信目前大部分现代语言的核心实现应该都符合 IEEE 754 标准。

FDA已经开始接受R语言递交的结果了，我有点好奇这个数值修约问题会不会被关注。

监管机构看重totality，虽然把技术细节做对很重要，但更应关注试验本身是否能够真正验证疗法安全且有效。

snotman

nan.xiao 我相信这个round()函数本身没有问题
但是在double类型的数值上round()就会有问题了。

fenguoerbian

下面这段你提供的代码照理说是运行不出来的，你如果能够运行就说明你的环境里本身就有a这个变量，而且很有可能你环境中的a并不是通过seq(0.105, 0.195, by = 0.01)创建的，所以才会得到说这段代码和你的tibble版本结果不一致。

test<-data.frame(
    a=seq(0.105,0.195,by=0.01),
    b=round(a,2),
    c=sprintf("%.22f",a)
    )
 test

它和你的直接使用向量版本的代码的结果区别，并不是因为一个是data.frame而另一个是向量，而是因为在创建的时候seq(0.105, 0.195, by = 0.01)和c(0.105,0.115,0.125,0.135,0.145,0.155,0.165,0.175,0.185,0.195)的二进制表示并不完全一致，在你引用的帖子里也提过这一点了。

至于监管，临床研究看重的是整体的获益风险评估，如果你的结果是因为这样的四舍五入问题导致结论有变化，那已经说明这个结果本身就不够稳健了。

snotman

meeeeeeeeo 这个是有先入为主的观念在里面的。（申办方，监管机构）都不愿意面对太大的风险。若不是SAS一年比一年贵，R和python的普及也不会有现在这么快。毕竟过去这么多年SAS的算法/程序没有出过太大的问题。

我个人觉得，推R的目的之一是为了和SAS谈钱的时候更有底气。