lwjimmy
各位好,小弟新来的,最近课题有一个关于统计的问题,我实在进行不下去了,希望各位高手指点一下。我做的是一个车辆荷载统计研究课题,数据以天为单位,包括车辆总重、轴重、车间距、时间间隔等,每天每种数据大概有三万多个,以前的做法是利用K-S检验法分别对正态,对数正态,极值I型,威布尔,伽马五种分布进行拟合,得出的结论总重、轴重和车间距服从对数正态,而时间间隔服从伽马分布。现在的问题是每天的数据量是以前的十几倍,而K-S检验的临界值与样本的数量有关,现在数量很大,所以临界值很小,导致我用MATLAB算出的检验值远远大于临界值,根本不可能接受原假设,希望各位给个建议;还有一个问题就是利用样本的数据如何计算威布尔分布的那两个分布参数?谢谢各位,不胜感激~~
wxqmath
数据量大,为什么不考虑直接找密度函数拟合数据?
用频率直方图/经验分布函数研究分布情况, 用不同分布混合/形变, 做更合适的分布.
如果数学基础足够好,也许你可以发现新的分布类.-----做创造性工作,不要囿于已有分布和以前的经验.向哥赛特那样.
shuaihuang
分几点来说好了,
第一
统计学界一直都认为 KS检验过于苛刻 在模型选择上面 如果不是特别苛刻的要求一定要拟合相当好的话 可以考虑用chi-square. chi-square相对比较flexible, 而且对数据稳健. 我估计你的数据太多的话, 是否可能存在数据的质量问题? 比如outlier, measurement errors, 这些都会对KS检验产生很大的影响.
第二,你这个问题其实是模型选择的问题. 密度函数估计固然是个好办法,但是其不具有一个固定的函数形式, 所以也不具有一些可以预测的性质. 得到的结果过于光滑,也未必说明它就真的效果好.如果能选参数模型,比如你现在的这些老招牌式样的统计分布,就尽量选.模型选择可以用很多种,不一定一定得拿统计假设检验来说. 比如AIC, 残差分析,都可以来进行模型选择.
第三,weibull分布没有显式的极大似然估计,但是在log了以后,又矩估计.这个在很多书里都可以找到.