eaglecn 比如:1个并行任务,理想情况下,所有的子任务都有相同的完成时间,但因为某些原因,会有一些任务的完成时间明显异于其它。例如在下面的情况下, 263,204, 6,249,282,274,429,283 我认为:204-283这6个数算正常值(接近中间的值)两端的值,过大(429)和过小(6)是异常值, 这个异常值的出现可能和数量依赖于总体数据的个数(并行子任务数), 问题是: 1:在一个总体的里,什么统计值能比较好地表现异常值的个数和程度 2:在若干总体里,有什么分布(依赖于总体中个数,上例中为n)会比较好地描述这种现象
eaglecn 在我的应用里,从小到大排序后的数据集{n1,n2,...,nm},可以定义掐头去尾得到的均值,X'如果一个值偏离X'50%的值定义成异常值. 楼上的意思是说,不同异常值的定义对先取描述的统计量的影响吗?
yihui “X'如果一个值偏离X'50%的值定义成异常值”这就是你的定义啊,问题在于定义没有固定的说法,你觉得偏离50%算异常,别人可能觉得70%,等等。所以你的第一个问题完全依赖于你的定义,那样才能找出异常值。至于第二个问题,不太好说。