ddlacusrabbit 吴喜之老师的从数据到结论中有一题说,在R上可以实现截尾均值的计算,如mean(x,trim=0.1)就是把数据x的最高和最低两个尾巴各去掉10%的数据再求平均,当trim=0.5时,就得到中位数,请问这是为什么?是使得数据变得对称了吗?这里所说的最高和最低两个尾巴并没有明确他们各占总数据的百分比多少呀?请好心人指教~~谢!
ddlacusrabbit 之前也是这么想的,只不过不敢确定去掉的一半是哪一部分的一半,因为只是说最大和最小数据的一半,觉得最大和最小的范围太宽泛了,嘿嘿,比如数据四等分以后,取前四分之一作为最小,后四分之二作为最大,那么各去一半以后,数据仍然是不对称的,均值不等于中位数,不过我现在发现是我自己钻牛角尖了,谢谢好心人啦~~
yuanxn 回复 第7楼 的 ddlacusrabbit: 截尾后数据该不对称还是不对称。 截尾是为了使野值对统计量的影响减小和稳定。统计学里有稳健统计学(robust statistics)的分支专门研究这种问题。 在箱形图中,触须以外就是野点,它们与中位数的距离超过 1.5 个标准差。 不对称分布要想对称需作数据变换。
ddlacusrabbit 嗯,明白~~我不是说截尾均值的目的是使数据分布对称,截尾均值只是去除离群点、极端值对均值计算的影响,我的意思是特指在trim=0.5时,此时mean(x,trim=0.5)得到的值就是中位数,那均值都等于中位数了,不可以认为相当于此时截尾后的数据分布变得对称了吗?^-^