想知道，标准差是否会比平均值还大呢？

ghtirb

想知道，标准差是否会比平均值还大呢？

老板问我是不是搞错了。头大。

yihui

这二者没有数量大小关系。你老板真是搞笑，让他/她扳着手指头算算两个数字-1和1构成的样本的标准差和均值分别是多少。

标准差一定大于等于零，谁说均值必须大于等于零？

不知道这种问题有哪里头大的。

ghtirb

对于搞统计的人来说可能这些都是小菜一碟，但其它人就不是这么回事了。我甚至突然对标准差、标准误这种问题都没把握了。

标准差是否会比平均值还大这个问题是这样的，我统计的是一个百分比，比如说平均值是0.46，但标准差达到0.56，两者相加没问题，但相减的话就不对了，变化率怎么可能变成负值呢？

yihui

这个问题跟搞不搞统计恐怕关系不大，标准差和均值的数学公式有那么复杂？现在高中生都开始学这些基本概念了。

均值与标准差直接相加或相减是什么意思？这种做法无异于计算“猫+狗”。

Kammy

我觉得二楼的意思是说,他担心用这个数据推断母体时会出现问题.

第一.样本的均值Mu加减标准差S的意义在于:

推断母体大部分数据的值所在的范围.拿正态分布来说,母体大部分数据落入Mu+-3S.

第二.均值(0.46)减一倍标准差(0.56)成负数了,若用这个结果推断母体,就意味着母体有一部分数据应该落在小于0的范围.而他统计的是一个百分比,母体和样本都不应该出现负数.

就好比统计人体中某种微量元素成分所占的质量百分比一样,不可能小于零.

我也刚开始学医学统计,以下意见如有不妥请指教.

我认为可能是你方差太大了.

标准差S^2=Sigma[(x-xi)^2]/(n-1)

样本量n太小,会导致计算出的方差较大.不只如此,如果你要进一步做假设检验,P值容易变大.

所以建议你调整样本量n,因为这是唯一可以人为调整的因素,当样本量足够大,标准差会趋于零的.

你觉得有道理么?

yihui

如果比例的置信区间下限为负数，那么就直接把下限取作零。

neige

or you can do transformations, ln, ln-ln

王笑权

如果不是特殊情况，如；1.配对t检验的统计量2.标准化后的数据3.数据本身就是在0的附近波动型-也就是这种数据是从负到正的拖拉型数据，则我认为楼主的统计量是有问题的。他出现在几种情况1.样本过小2.偏态严重3.计算失真。若非前几种资料类型，你们老板按“猫+（-）若干狗”会有某种通常现象，对你做出的统计量进行直观判断，无疑很明智。

y.luo

奇怪的事多着呢，还有人以这个为理由怀疑别人的数据是伪造的呢！

我一个师弟的遭遇，投到国内的某个期刊。结果审稿人说怀疑数据有问题！

hyxxj

在医学上的一些数据，比如人体内某些生物化学指标，例如：谷丙转氨酶值等等，取值不可能是负数的。而服从正态分布的变量，有一个3σ原则，就是随机变量的取值落在μ－3σ～μ＋3σ外的概率只有0.27％，换而言之，在一次试验中，基本上可以认为变量的取值在μ－3σ～μ＋3σ之间，根据这个原则，你的样本资料的标准差比均数还大，那么如果你选的样本是可以为负值，那应该没关系，如果你选的样本是不能为负值的，就有问题了。关于这个问题，我也是刚刚在摸索，因为在医学科研论文中经常看到标准差比均数大的现象，以上意见如有不妥，请见谅。

hyxxj

“2、误用正态分布的描述性统计指标描述呈偏态分布的资料。通常认为均数小于2 倍标准差的资料呈偏态分布,不能用均数、标准差描述资料的集中趋势和离散程度,正确的做法是用中位数、众数描述集中趋势,用第三与第一四分位数间距表示离散程度;或者是将原始值经对数等转换后再计算转换值的平均数和标准差。”引自《常见医学科研设计与统计分析错误辨析(一)———临床试验部分》　查青林江西中医学院学报2 0 0 4 年8 月第1 6 卷第4 期。希望这段文字能帮你了解一下。

friend

我建议LZ检查一下自己资料的类型，百分比资料我还认为用平方根反正弦变换之后再做分析。。。或者按照四楼所说的增大你的样本量。

robustreg

3sigma说的是正态分布条件下，个体值（而不是均数）多数在某个范围内波动，均数大于标准差，有什么好奇怪的，标准差指的是个体值的离散程度，而不是抽样误差，抽样误差和n有关，而标准差是某个指标个体值的固有属性,和n无关，并不是n大标准差就小（计算公式上分子分母都和n有关，而不只是你肉眼看见的分母上那个n），只能说n越大，样本标准差越逼近总体标准差

至于率的那个问题，更是，，，不予评价，，，

均数不能大于标准差，这是概念上的错误，很多审稿的所谓“专家”并不是professional statistitian，只是学过几个学时的统计课，因为在其专业领域内成为专家而对统计学内容也来审稿，故有此似乎有点道理的质疑，，，

国内很多专业期刊的审稿人缺少统计专业的参与，没眼光

TTG

LZ的情况，估计可信区间，应该用均值加减1.96的标准误才对，怎么可以加减样本的标准差呢？

样本的标准差在总体标准差不明时用来估计总体的标准差（大样本时更准确），而标准误则是多个样本均数的标准差，其值为样本标准差除以样本个数的平方根。

hexm26

暂且不论楼主发起的均值和标准差的比较问题，看了２楼的回帖就知道这又是个百分比的大样本估计的滥用错误。过２天我有空了专门来讨论一下这个问题。