什么统计变量能说明异常值的个数 or比例or 分布。

eaglecn

比如：1个并行任务，理想情况下，所有的子任务都有相同的完成时间，但因为某些原因，会有一些任务的完成时间明显异于其它。例如在下面的情况下，

263，204， 6，249，282，274，429，283

我认为：204-283这6个数算正常值（接近中间的值）两端的值，过大（429)和过小(6)是异常值，

这个异常值的出现可能和数量依赖于总体数据的个数（并行子任务数），

问题是：

1：在一个总体的里，什么统计值能比较好地表现异常值的个数和程度

2：在若干总体里，有什么分布(依赖于总体中个数，上例中为n)会比较好地描述这种现象

yihui

“异常”需要“异常”的定义。

eaglecn

在我的应用里,从小到大排序后的数据集{n1,n2,...,nm},可以定义掐头去尾得到的均值,X'如果一个值偏离X'50%的值定义成异常值.

楼上的意思是说,不同异常值的定义对先取描述的统计量的影响吗?

yihui

“X'如果一个值偏离X'50%的值定义成异常值”这就是你的定义啊，问题在于定义没有固定的说法，你觉得偏离50%算异常，别人可能觉得70%，等等。所以你的第一个问题完全依赖于你的定义，那样才能找出异常值。至于第二个问题，不太好说。