march
现在有一个调查,关于各连锁店(10家)卫生状况。每一个纪录包括卫生检查得分,卫生检查原因(比如常规、顾客投诉、复查)。所以每个店都会有最少一个记录,多的可能会有10条,当然每个连锁店也有很多店。其中卫生检查得分是最为关心的。
问题1如果仅以卫生检查得分进行连锁店排名,该怎么做?求出每次检查的平均分,然后呢?怎么进行多个样本的比较?
问题2如果fit a model进行排名(比较系数),得分作为y。
方法1和2哪个更合理些。个人认为方法1好些,因为卫生检查得分是最为关心的。
如果发现有一个连锁店的排名结果在方法1与方法2中有很大出入,是否能说明方法1更好些。因为fit a model不能保证所有的连锁店在模型中有相同的偏差。
march
各位看官,请发表意见,谢谢啦。是否我有描述不清的地方,或者。。。,请提示一二。大家都是怎么样做排名的呢?
yihui
没有实际操作之前当然不能贸然说模型不好,我看到你的变量中有“卫生检查原因”,这显然是一个很重要的变量啊,要是一个店遭顾客投诉,即使之后去检查分数很高,那也不能说明问题。
如果用1,那么之前最好检查一下数据,主要看看数据的方差如何,每个店的得分情况波动是否差不多,若不是,那么算平均也是不好的。
march
问题就在于有些样本之间的方差区别比较大。。。
有否同时进行多个样本均值检验,进而排序的方法?
下面是数据的基本情况
均值 标准方差
连锁店1 1.543 2.504
连锁店2 0.617 1.323
连锁店3 1.024 1.849
连锁店4 0.98 0.458
连锁店5 0.672 1.728
连锁店6 1.231 2.512
连锁店7 0.633 1.609
连锁店8 0.380 1.023
连锁店9 0.281 0.604
连锁店10 0.598 1.469
[quote]引用第2楼谢益辉于2007-03-10 18:00发表的“”:
没有实际操作之前当然不能贸然说模型不好,我看到你的变量中有“卫生检查原因”,这显然是一个很重要的变量啊,要是一个店遭顾客投诉,即使之后去检查分数很高,那也不能说明问题。
如果用1,那么之前最好检查一下数据,主要看看数据的方差如何,每个店的得分情况波动是否差不多,若不是,那么算平均也是不好的。[/quote]
netcow
标准差均比均值大,卫生检查的得分并不呈正态分布,当然也就不适合用进行多个样本均值检验。最好采用其它统计量来描述每个连锁店的得分的平均水平。如中位数、众数。
另外根据你的提示,每个连锁店的卫生 检查得分好象并不是独立的,因为并非在统一标准的情况下的评分。所以这个因素也要进行处理,才能够进行比较。
march
谢谢你的提示。每个连锁店的检查是独立的,另外为简单起见标准也是一样的。
问题1:如果数据(我将均值+1,为使问题可讨论)如下,怎么做排名?
均值 标准方差
连锁店1 2.543 2.504
连锁店2 1.617 1.323
连锁店3 2.024 1.849
连锁店4 1.98 0.458
连锁店5 1.672 1.728
连锁店6 2.231 2.512
连锁店7 1.633 1.609
连锁店8 1.380 1.023
连锁店9 1.281 0.604
连锁店10 1.598 1.469
问题2:怎么解决拟合模型时某一连锁店与实际情况出入较大?
[quote]引用第4楼netcow于2007-03-12 09:38发表的“”:
标准差均比均值大,卫生检查的得分并不呈正态分布,当然也就不适合用进行多个样本均值检验。最好采用其它统计量来描述每个连锁店的得分的平均水平。如中位数、众数。
另外根据你的提示,每个连锁店的卫生 检查得分好象并不是独立的,因为并非在统一标准的情况下的评分。所以这个因素也要进行处理,才能够进行比较。[/quote]
st_strong
我赞同上面一位同志的说法,不同的检查原因的权重是不同的
不要简单的算平均分
zenky
试试秩和检验