分层线性模型软件HLM6.0操作简介

COSeditor

https://cos.name/2009/09/guide-to-hlm/

王化儒

谢谢分享

priss111

感谢您的分享！

yihui

我期待一篇解释HLM的文章，比如数学公式是什么，实际意义是什么；我个人的一个很直接的疑问有几年了，没找到人帮我解释一下：关于HLM，为什么不对最底层的数据直接建模，然后看模型在上层变量上的变化，而要用所谓的随机效应？例如对于学校、班级、学生这样的结构，研究数学成绩和语文成绩之间的关系（只是比方），这个关系可能在不同班级之间不一样，为什么不直接对每个班做回归，然后看系数的变化？类似的，对于时间上的纵向数据，为什么不对每个时间点的数据建模，看模型随时间的变化？随机效应究竟是什么意思呢？谢谢！

John Mu

I think you can read the book by Bryk and Raudenbush to get more math behind it. The reason why your suggested approach is not appropriate is largely attributable to the challenge for computing standard errors plus the scenario in which there may be rare cases in certain level-2 units.

shuaihuang

[未知用户] http://www.dartmouth.edu/~eugened/index.php?section=sales_paradox

推荐谢老大看这个例子
简单,很有说服力

shuaihuang

楼主能不能提供一个下载HLM软件的链接咯.. :)

shuaihuang

[未知用户] 另外,其实gelman也谈到过你的这个方法,并且评论说这个方法效果也可以,但是正如上面那位所说,不能准确估计std error.

REF. data analysis using regression and multilevel/hierarchical models, chapter 11 and 12.

ypchen-ypchen_cos

[未知用户] HLM是商业软件学生版是免费的可以到官方网站下载
会用R的还是用R吧

yihui

[未知用户] 这个例子只是说明了一个控制变量的问题，我以前也写过类似的例子：http://yihui.name/cn/2008/11/why-use-multiple-regression/，一元回归（或散点图）揭示出的规律可能是假的，因为没有控制其它变量的影响。

不用混合模型，同样可以得出在控制第三个变量之后“销售和价格的关系是正向的”这样的结论，而且，你的这个例子恰恰就是我的疑问的直接来源，为什么不直接对每种产品的价格和销量做回归呢？这样就可以看出销量和价格的系数在产品间的变化了（当然也可以看出正向关系）。

yihui

[未知用户] ``Rare cases in certain units'' sounds like a reasonable explanation, although I don't know how mixed effect models deal with small sample sizes. BTW, do you mean the std errors of the coefficients are difficult to estimate? Thanks!

yihui

[未知用户] 谢谢你的文献，我找到这本书了，回头读一读：）

shuaihuang

[未知用户] 恩。。
发现我答非所问了　赫赫
你问的问题透露出你的目的可能是要去研究几个变量之间的关系，或者一种趋势的．针对这样的目的的话，显然，楼上那位兄台的argument是很好的－－有的ＵＮＩＴ里面n<p，拟合精度实在太低．这样你的这种方法就可能不适用了．Gelman在那本书中也多次提到，把所有数据放入一个整体模型（混合模型），其实是一种介于complete pooling 和 complete unpooling的策略．在ＧＥＬＭＡＮ的另一本更经典的书bayesian data analysis的hierarchical linear model这一章，讲的也很详细．：）

另外，mixed model之所以不采用你所说的方法，是因为它还有另外一个目的：它需要研究the different sources of variance.这一点在实际应用当中是很有意义的．比如两层的模型，就有两种variance sources; one is the within cluster variance, the another one is the between cluster variance. 它们的现实意义在于：比如在一项政策的研究当中，需要考虑到这个政策是否在５０个州都有效而且高效，这就是需要within cluster variance比较小才好．然后就是考察各个州自身的条件是否对这个政策有所影响，between cluster variance就用来衡量这个．

谢兄所说的方法可以用来估计这两个variances，但是精度就很难说了．如果不能保证精度，那第二个目的就无法达到，但是可能可以实现第一个目的，如果数据质量可以的话．

像这种衡量多种variance sources的模型在统计里面数不胜数，比如split-spot experiment design,或者更简单的block design，都是需要考虑到多种variance sources．仔细想来，统计的核心不就是dealing with variance?　

yihui

[未知用户] 非常非常感谢你的解释，有了这样一个大致概念之后再看书就好多了，对我的学习来说，很多统计模型都是因为没有梗概，很容易陷入细节而不知为什么要那样做（以至于觉得简单方法可以实现的东西为什么需要复杂模型来处理），读书觉得每一句话都对，但不知道即使对又能怎样……

ling~

[未知用户] Thank you very much.It is realy helpful .

闫景蕾

很喜欢分层线性模型，但是怎么把大量数据转化成结果，这个步骤搞不懂

qinxi-99

新手求助，请问怎么编辑多层线性回归使用的数据文件，建立ID，进行分组，查不到这方面的教程?