单样本T检验的样本量影响

foreseer201

看到过T检验适合小样本量的说法，尤其是对30以下的样本量。

按照谢老大的一个图示例子，照猫画虎做了个图形验证这个结论。

验证单样本T检验，思路如下：

1、随机生成10000个均值为1的数据；

2、将样本量i从10到1000循环，从10000个总数据中抽取i个数据并进行均值为1的T检验，针对每个i做10次取检验p值的平均数；

3、记录样本量i和对应平均p值的对应编写，并画散点图。

从第一个图看出，样本量对检验的结果并没有很大的影响。

而传入检验的均值参数不是1：以0.9、0.8、0.7、0.6，直到0.6时才有显著的效果。

如第二图所示，但也是在样本量较大的时候，p值都表现在0.05的拒绝线以下。小样本中很多犯了取伪错误。

多运行几次0.6的效果不一（0.05线以下的点数），但总体都是大样本好于小样本。

自己从两图得出的结论是，T检验并不是小样本量的时候效果很好。有两个问题请教大家：

1、不知道这个验证靠谱不，在思路或基本概念上有没有很大的问题。

2、程序中用到了个for循环，因为循环体内的部分用到了计数i，用不了replicate。这种显式循环能有别的办法替代么。

谢谢 ~~

代码如下

<br />
myTtest <- function(mean_t, mean_v) {<br />
  base <- rnorm(10000, mean = mean_t, sd = runif(1, 2, 5))<br />
  x <- c(0)<br />
  y <- c(0)<br />
  for (i in 10 : 1000) {<br />
    x <- append(x, i, after = length(x))<br />
    pTmp <- replicate(10, {<br />
      x1 <- sample(base, i)<br />
      t.test(x1, mu = mean_v, alternative = "two.side")$p.value<br />
    })<br />
    y <- append(y, mean(pTmp), after = length(y))<br />
  }<br />
  t_test <- data.frame(points = x, pval = y)<br />
  t_test <- subset(t_test, points > 0)</p>
<p>  plot(t_test, col = rgb(0, 0, 1, 0.6))<br />
  abline(h = 0.05, v = 30, col = "red")<br />
}</p>
<p>myTtest(1, 1)<br />
myTtest(1, 0.6)<br />

</p>

foreseer201

发现图没法直接显示，打开附件才可以看到。。。[s:17]

yihui

哈哈，很高兴你照着我的猫画了一头虎，我的文章有人看，就是对我最大的表扬。几点问题如下：

首先，你的数据不是严格来自正态分布（为什么？）；

其次，我从来都觉得t检验适用于小样本是个天大的骗局，或者说这话被误解了（从你的描述来看，你似乎是被误导的群众之一）。说得再极端一些，我不相信世上存在专门适用于小样本的统计方法，或者说得通俗一些，我认为凡是用手指头能数过来的数字都没必要用统计方法分析。几年前的一篇老文章： http://cos.name/old/view.php?tid=47&id=91

你验证了大样本比小样本“好”，这几乎是理所当然的。问题是如果你认为小样本情况下t检验好，你就得找一个比较，它到底比谁好？就像启功老爷子讲的故事：那老头子总是说我乖，可是我到底乖在哪儿？

micro@

回复第3楼的谢益辉：I think for well designed experiments, small-sample inference is still beneficial.

foreseer201

感谢两位的回复。

突然发现用了照猫画虎这个词，沾了谢老大的不小便宜，嘿嘿 [s:11]

数据不是严格来自正态分布，是因为rnorm函数生成的不够严格么？这个确实没想明白。

现在明白了，t检验“也许”是针对小样本的数据比较“好”的方法；但不会是处理小样本比大样本“好”，图反应了，嘿嘿。原来确实有这个误会。

谢老大说的同样小样本的情况下，比谁“好”。自己确实还没找到t检验跟谁比。。。

现在在学习谢老大那本书中海拔高度与植物数的例子，用LOWESS曲线的。正好顺藤摸瓜知道了Bootstrap，学习中。

yihui

画吧画吧，我不介意[s:11]

你代码中抽样的总体究竟是什么？

foreseer201

base <- rnorm(10000, mean = mean_t, sd = runif(1, 2, 5))

总体就是上面的这个名为base的向量，rnorm生成的10000个均值为1的正态分布样本点。

不知这样弄得总体，是不是概念上有问题。。。

yihui

不错，你代码中的总体是这10000个特定的点，你理论中的总体是什么？

foreseer201

理论中的总体，是一个均值为1的数据空间，且符合正态分布。

代码中用10000个这样的点，来模拟这个总体。

从10到1000的抽样过程，从这10000个数据中抽取。这里就有个限制：应该从总体中抽样的，程序里只能从这10000个总体的子集中抽。

这样的话，是不是base的数量越大，就越好呢？----因为base越大，抽样被限制的就越“小”。。。

不知这样理解是否对呢？

还想依葫芦画瓢，自己验证一下Bootstrap中提到的，抽样均值的分布逼近正态分布。

这个抽样数据与理论总体对应关系问题没搞不清，怕画出来的结论也有偏差。。。

(虽然重抽样说部需要总体的正态性，但怕有除正态性之外的要求。)

再次感谢谢老大的热心回复~~~ [s:13]

nan.xiao

其实我想这里可能存在一个误解我们并没有去特别强调t检验适合小的样本量(？) 虽然说样本量取得过大或者取得过小时对于具体应用情境某些参数检验方法会体现出不同的问题

此时引入势的概念可能有益于讨论即使是数值模拟也需要定量的衡量手段只看图未免有失偏颇

至于模拟方法的设计个人觉得尚有提升的空间目前的思路不是特别清晰而且似乎有点问题

foreseer201

多谢nan.xiao回复。

能否指点一下，目前的思路不清晰和有问题的是哪块.[s:13]

yihui

我现在没空考虑你说的bootstrap问题，就你的原问题而言，你有精确的总体rnorm()可用，为什么要用一个近似的特定总体rnorm(10000)？虽说10000跟无穷可能没啥区别，但我看不出这样有什么好处。

foreseer201

明白了，应该从rnorm直接取点。不用限定在一个10000个点里面取。

当时想到的就是从10000个里面抽取10到1000，这个10000足够大了。没考虑太严格。[s:14][s:11]

修改代码如下。

<br />
myTtest <- function(mean_t, mean_v) {<br />
  x <- c(0)<br />
  y <- c(0)<br />
  for (i in 10 : 1000) {<br />
    x <- append(x, i, after = length(x))<br />
    pTmp <- replicate(10, {<br />
      x1 <- replicate(i, rnorm(1, mean = mean_t, sd= 1))<br />
      t.test(x1, mu = mean_v, alternative = "two.side")$p.value<br />
    })<br />
    y <- append(y, mean(pTmp), after = length(y))<br />
  }<br />
  t_test <- data.frame(points = x, pval = y)<br />
  t_test <- subset(t_test, points > 0)</p>
<p>  plot(t_test, col = rgb(0, 0, 1, 0.3), pch = 20)<br />
  abline(h = 0.05, v = 30, col = "red")<br />
}</p>
<p>myTtest(1, 1) #第一图效果<br />
myTtest(1, 0.8) #第二图效果<br />

</p>