设想这样一个操作:
用rnorm()
随机生成2个数,去掉一个最小值后,剩下的值记为\(X1\)
(即保留最大值)。
用rnorm()
随机生成3个数,去掉一个最大值和最小值后,剩下的值记为\(X2\)
。
请问\(E(X1)\)
和\(E(X2)\)
的大小关系?
下列代码是10万次模拟的结果:
library(tidyverse)
f <- function(){
x1 <- rnorm(2) |> max()
x2 <- rnorm(3) |> sort()
x2 <- x2[2]
return(list(x1 = x1, x2 = x2))
}
res <- map_dfr(1:1e5, ~f())
res %>%
pivot_longer(1:2) %>%
ggplot(aes(x = value, color = name, fill = name)) +
geom_density(alpha = .2)
最终结果是,\(E(X1) > E(X2)\)
:
其实,这一结果并不难理解。因为\(X1\)
是样本极大值,而\(X2\)
是样本中位数。真正比较有意思的,是这一结果的现实意义。
设想这样一个简单场景:有两位选手,他们的真实水平是一样的\(\mu=0\)
。有三位评委给他们打分,所打分数彼此独立且服从标准正态分布(真实水平+误差)。
假设选手1收买了其中一位裁判,该裁判一定给选手1打满分。
在计算综合得分时,如果采取“去掉一个最高分,去掉一个最低分的策略”,那么影响选手1的只有另外两个评委的打分(因为被收买裁判的打分会被作为最高分去掉),那么其最终得分就是剩余两个得分中较大的一个;选手2则会得到三个评委打分的中间值。
从开头的模拟看,即使被收买评委的打分一定会被去掉,选手1仍然占了优势。