1楼的第一句话很危险:“数据量大”与“正态分布”根本一点关系都没有,“大样本意味着正态分布”是人们对所谓的大数定律和中心极限定理的一个严重误解,如果样本量大就能近似正态分布的话,那么一百万个1是否表明常数1服从正态分布呢?显然不是。
从直方图能看出这个样本的分布是右偏的,至于具体是什么分布,答案是不确定的,因为任何检验分布的统计方法只能有把握得出“数据不服从某种分布”的结论,而没法说“经检验,数据服从某分布”——零假设可以有很多种,比如我们可以检验出数据不服从正态分布,不服从指数分布,不服从某t分布,等等,唯独不能得出结论说数据服从某分布,很可能最后的结果是“不能拒绝数据服从某Poisson分布、不能拒绝爱尔兰分布、不能拒绝……”。
图形可以通过在
http://geoinformatics.nju.edu.cn/rphp/r/这个网站中提交运行如下代码看到:
x=c(390, 670, 20, 1060, 330, 470, 797, 1205, 660, 1525, 695, 1075,
1470, 693, 561, 254, 585, 452, 473, 779, 252, 416, 449, 517,
190, 175, 502, 208, 191, 253, 548, 195, 69, 634, 82, 944, 570,
530, 668, 473, 591, 857, 833, 50, 85, 1040, 700, 590, 1290, 580,
190, 520, 835, 505, 510, 580, 380, 660, 1460, 560, 810, 400,
410, 510, 470, 500, 1000, 790, 540, 300, 470, 790, 850, 980,
1050, 750, 555, 648, 570, 836, 603, 641, 330, 937, 357, 1288,
242, 1093, 316, 681, 580, 639, 129, 689, 696, 353, 1003, 527,
523, 445, 1133, 688, 847, 307, 695, 819, 326, 673, 648, 633,
462, 714, 171, 1098, 867, 288, 371, 1505, 484, 342, 589, 312,
838, 202, 810, 127, 549, 597, 1296, 445, 1253, 580, 759, 693,
440, 589, 599, 900, 1150, 860, 1020, 740, 520, 1050, 90, 510,
730, 980, 570, 770, 680, 30, 295, 845, 650, 760, 105, 695, 630,
800, 770, 180, 830, 860, 220, 1340, 300, 90, 920, 500, 820, 700,
530, 248, 737, 595, 540, 540, 123, 837, 530, 643, 589, 1005,
665, 528, 359, 421, 791, 409, 660, 600, 3670, 648, 675, 887,
85, 715, 70, 370, 600, 830, 190, 421, 209, 340, 601, 459, 1173,
886, 132, 902, 577, 800, 540, 608, 417, 788, 569, 635, 564, 528,
641, 712, 313, 1605, 180, 801, 329, 821, 96, 502, 470, 802, 418,
851, 211, 723, 794, 208, 454, 797, 906, 1042, 106, 714, 462,
721, 753, 704, 28, 983, 745, 900, 884, 581, 612, 442, 522, 548,
525, 400, 865, 657, 413, 1003, 446, 701, 800, 768, 646, 876,
140, 679, 251, 125, 115, 840, 690, 610, 880, 1190, 610, 1280,
670, 1180, 770, 520, 700, 770, 280, 550, 540, 261, 187, 1492,
720, 590, 759, 41, 670, 300, 1290, 530, 800, 660, 170, 435, 675,
542, 965, 604, 690, 394, 425, 987, 308, 673, 493, 502, 1167,
4265, 457, 409, 341, 989, 662, 767, 626, 439, 647, 718, 550,
698, 612, 620, 1145, 292, 513, 398, 738, 694, 1560, 900, 500,
510, 1340, 205, 85, 1240, 770, 40, 410, 630, 1020, 525, 415,
1040, 1470, 590, 1710, 1080, 360, 780, 705, 385, 1020, 1010,
580, 1850, 715, 145, 590, 720, 570, 590, 80, 430, 870, 318, 592,
960, 180, 1980, 1590, 390, 620, 100)
par(xpd=NA)
hist(x,prob=T)
lines(density(x),col='red')