关于举办“多水平统计模型在医学和公共卫生研究中的应用”第二期培训班的通知

Ron

多水平统计模型(Multilevel Statistical Models)是国外近20年发展起来专门用于处理具有层次结构数据的一种统计新技术和新方法。国外对其研究和应用具有许多新的进展，并在社会学、经济学、政治学、教育学、心理学和医学等许多领域具有广泛的应用，其方法在英国已成为应用统计学研究生的必修课。英国学术研究最大的资助机构“英国经济社会学研究学会”和英国皇家统计学会每年出资支持其模型应用的项目活动。各主要统计软件如SAS、SPSS、Stata和S-plus自1996年来纷纷在其升级版本中加入了该模型的拟合功能。在生物医学和公共卫生研究领域存在大量层次结构数据，多水平模型在该领域具有广泛应用前景，但国内对其研究和应用处于起步阶段。本培训班旨在推动我国多水平模型在上述领域的研究、应用和发展。

本学习班已经举办了第一期，由四川大学华西公共卫生学院举办，取得了良好的效果。第二期“多水平统计模型在医学和公卫研究中的应用”培训班拟于2007年5月16～20日在南京医科大学举办。培训班将结合医学和公共卫生研究实例对多水平统计模型的基本原理、基本类型、模型结构，尤其是在生物医学和公共卫生研究领域的应用和结果解释进行较为系统的介绍，采用多水平模型的专用软件MLWin拟合基本的多水平模型。此外，还将介绍如何用SAS、Stata等软件进行多水平模型分析。

本学习班将邀请英国伦敦大学女王玛丽医学院研究员杨珉教授、四川大学华西公共卫生学院李晓松教授、南京医科大学公共卫生学院陈峰教授等授课。培训将主要依据杨珉主编的《医学和公共卫生研究中的多水平模型》、李晓松主译的《多水平统计模型》主要内容。杨珉教授在多水平模型开发、应用以及培训方面具有丰富经验，在英国和许多欧洲国家举办过多次多水平模型应用培训班。

热忱欢迎对多水平模型及其应用有兴趣的高等医学院校、医学科研机构和疾病预防控制部门的教师、科研人员和研究生参加。鉴于统计学为方法学科，培训实例不涉及专业特强的临床医学知识，因此亦适合其他学科如教育、经济、社会学等领域的研究人员和研究生。

Date and time Contents

Tues. 15 th May Reception

Wed. 16 th May

8:20 – 9:00 am Introducing & photo

9:00 – 9:50am Introducing multilevel models and MLwiN v2.0 (YM)

10:00 – 10:50am Two-level variance component models (LXS)

11:00 – 12:00am Question and Practice (YM & LXS)

Lunch

2:00 – 2:50pm Random intercept and random slope models with practice (YM)

3:00 – 3:50pm Residuals and their application (LXS)

4:00 – 4:50pm Graphical procedures for exploring the model with practice (YM)

5:00 – 6:00pm Modelling contextual effects with practice (YM & LXS)

Question and Discussion (LXS & YM)

Thurs. 17 th May

8:00 – 8:50am Three-level models (YM)

9:00 – 9:50am Practice (YM & CF)

10:00 – 10:50 am Models for repeated measures data (CF)

11:00 – 12:00am Practice (YM & CF)

Lunch

2:00 – 2:50pm More models for repeated measures data (CF)

3:00 – 3:30pm Question and discussion (CF & YM)

3:30 – 5:30pm Practice (CF & YM)

Friday. 18 th May

8:00 – 9:30am Multilevel logistic models for binary data (ZY)

9:40 – 12:00am More practice (ZY & YM)

Lunch

1:30- 5:00pm Tourism

Sat. 19 th May

8:00 – 8:50am Multilevel Poisson models with practice (CF)

9:00 – 9:50am Practice (CF & ZY)

10:00 – 10:50am Multivariate multilevel model (ZY)

11:00 – 12:00am Practice (ZY & CF)

Lunch

2:00 – 2:50pm Overall review of statistical packages for multilevel models (YM)

3:00 – 6:00pm General practice (ZY, CF, YM)

Sun. 20th May

8:00 – 11:00am Participants’ presentation of their own analysis on any model selected by themselves

11:00~11:30am Question and Discussion (YM & CF)

11:30~12:00am Tag

Course tutors:

 Professor Yang Min (YM), Queen Mary School of Medicine, University of London (m.yang@qmul.ac.uk)

 Professor Li Xiaosong (LXS), Department of Health Statistics, School of Public Health, Sichuan University (lixiaosong1101@126.com)

 Professor Chen Feng (CF), School of Public Health, Nanjing Medical University. (dr.chenfeng@163.com)

联系人：魏永越　

E-mail：weiyongyue@126.com

地址：南京市汉中路140号　南京医科大学公共卫生学院流行病与卫生统计学系

邮编：210029

昨天发了一贴，莫名其妙地消失了，不知道是否被删除了……这可不是广告帖。

yihui

培训班一人多少RMB？

Ron

1,500 这里没办法上传附件，故回执也上传不了……

但其实里面包含了很多费用……

yihui

传到别的地方给个链接不就行了。难道你们自己网站都不放这个通知？

现在培训班铺天盖地的，也不知道有几个能讲清楚的。

Ron

如果楼上没有听说过杨岷的话，说出这样的话也不难理解。

杨岷是 Goldstein 多年的同事，国内较早接触MLM的人。不是数理统计专业毕业的人。

我发出这个帖子只是告诉一下大家有这么回事，Email和联系方法也都有了，愿意学习的不难得到这个回执。主页不是由我们自己更新的，所以没法传上去。

讲不讲得清楚是要看听众的目的是怎么样的。如果只是希望了解多水平的应用，你给他讲一大堆理论也没有用。所以说国内现在搞理论和搞应用的脱节，一点也不错。

longoR

虽然不知道这几个人课讲得怎么样，但是推广此类模型还是很有价值的。

hierarchical modeling的确非常versatile，特别是对做生物医学方面应用的人来说，几乎没有理由不掌握好。遗憾的是常见卫生统计教材对此"类"模型的忽略程度得也够可以的。。。

但是此类模型的缺点就是不是任何时候模型的解释都很容易，有现实根据的时候解释起来很方便；但是没有现实根据的时候，往往关于无法观测到的参数的随机模型仅仅是一种脑袋里面“想”出来的东西。这种问题在非线性混合模型中更为严重，线性混合模型略好一点。当然bayesian可能不在乎这些了。

举个极端例子来说，个别paper中的模型层数高达几十层，如果没有实际意义，天知道究竟怎么解释那些中间层的随机参数。模型层数不断升高的直接后果就是，一个看上去参数化的模型，实际行为却非常类似非参数模型，只要对应上分布的support，它几乎可以描述任意可观测数据（也就是顶层的数据）。还有一个特例就是finite mixture模型（有些人经常误认为mixed模型不是mixture模型 [至少我当年有一段时间内是这么认为的] ，其实两者实质是一样，唯一区别在于究竟是离散的还是连续的mixture），加入component的数量不断升高，那么它可以看作是非参的kernel density estimator、也可以看作是个spline；当模型可以有现实意义上解释的时候，它又会被当作一个参数模型（比如做model based clustering的时候）。所以很难说就是参数模型还是非参数模型。

这类模型的另外一个特征是它综合了bayesian和frequentist的双重思路，所以也有不少人称之为empirical bayes。frequentist可以把随机的参数当作数据生成机制来解释，而bayesian则自然而然的认为所有参数都是随机的。

生物信息学/系统生物学里面用的bayes网络其实也可以概括在此类模型下面，这里不再多说。

总而言之，这类模型是一种基于参数与非参数、bayes与frequentist中间的一种compromisation。既可以说集各家所长，也可以说集各家所短，关键在于怎么和现实问题结合起来，扬长避短。

Ron

卫生统计教材是给几乎没有学过数学的医学生看的。遇到比较复杂的资料，让他们自己去分析是不现实的。

至少他们知道有这样一回事，在遇到研究时想到有这样一个东西，就好了。

MLM和HLM似乎还有点不同，主要HLM我不太了解，所以说不出区别。但是我想对于模型的解释，一定要从统计和专业两个角度来看，否则再完美的Model也是meanless

longoR

[quote]引用第6楼Ron于2007-04-09 12:46发表的“”:

MLM和HLM似乎还有点不同，主要HLM我不太了解，所以说不出区别。[/quote]他们的核心思路都是一样的。我说的hierarchical modeling并不局限于hierarchical linear model。

Ron

[quote]引用第5楼longoR++于2007-04-09 12:38发表的“”:

虽然不知道这几个人课讲得怎么样，但是推广此类模型还是很有价值的。

hierarchical modeling的确非常versatile，特别是对做生物医学方面应用的人来说，几乎没有理由不掌握好。遗憾的是常见卫生统计教材对此"类"模型的忽略程度得也够可以的。。。

但是此类模型的缺点就是不是任何时候模型的解释都很容易，有现实根据的时候解释起来很方便；但是没有现实根据的时候，往往关于无法观测到的参数的随机模型仅仅是一种脑袋里面“想”出来的东西。这种问题在非线性混合模型中更为严重，线性混合模型略好一点。当然bayesian可能不在乎这些了。

.......[/quote]

长见识了，多谢指教……

longoR

我同意Ron的根本就不该让医生自己分析数据的说法，上次因为支持管理员的这个观点还某些自称文科人员的人争得（*……——……%￥#·！#￥。让传统意义上的医生有能力进行成熟的数据分析根本就不现实（不排除特例存在），对医生进行统计学教育的目的就是让他们可以有一些共同语言与作统计的人进行咨询与合作。

统计学上从来不存在真实的完美的model，完美的模型仅仅在模拟数据中才存在。这个世界上从来没有什么正态分布的数据，概率仅仅是一种抽象化的概念。

Ron

[quote]引用第9楼longoR++于2007-04-09 13:15发表的“”:

我同意Ron的根本就不该让医生自己分析数据的说法，上次因为支持管理员的这个观点还某些自称文科人员的人争得（*……——……%￥#·！#￥。让传统意义上的医生有能力进行成熟的数据分析根本就不现实（不排除特例存在），对医生进行统计学教育的目的就是让他们可以有一些共同语言与作统计的人进行咨询与合作。

统计学上从来不存在真实的完美的model，完美的模型仅仅在模拟数据中才存在。这个世界上从来没有什么正态分布的数据，概率仅仅是一种抽象化的概念。[/quote]

嗯，只有医生才明白自己想要的目的是什么，因此强调合作是非常必要的。

简单的问题搞得过于复杂，并不利于其被专业所认可；拿一些本可以进行更精妙分析的资料做进一步的挖掘，医生也是欢迎的。

所以，也不要像象极个别人一样把医生的数学思维想得很差……

longoR

呵呵，上次开会david allison说了句挺有意思的话，却是很现实的情况：“医生一直以为正态分布是搞统计的人所推荐的东西，所以要听高统计的人话，认为数据是正态的；而搞统计的人一直以为假定正态分布是搞生物的人长期以来对其数据的一种共识，所以也认为是数据是正态的。”倒头来，双方都认为正态分布是对方很确定的东西，所以也就都接受该假定了。

longoR

[quote]引用第10楼Ron于2007-04-09 13:47发表的“”:

也不要像象极个别人一样把医生的数学思维想得很差……

.......[/quote]我一直认为自己的数学思维比较差，不过后来发现差不差这要看和谁比较、在什么层次上对什么样的数学思维进行比较。

Ron

[quote]引用第12楼longoR++于2007-04-09 14:04发表的“”:

我一直认为自己的数学思维比较差，不过后来发现差不差这要看和谁比较、在什么层次上对什么样的数学思维进行比较。[/quote]

同意，比如我和你比，我就很差……呵呵，玩笑

枫绱

还是应该具体情况具体分析，在某个专业领域使用统计，就必须专业知识和统计知识均具备，否则很可能出现一些很可笑的结论

robustreg

david allison说的是很早就被Stigler提到的一句话：

由于参数模型理论的优美,人们常常试图忘记它只是客观现实的近似.于是在上一世纪的一段时间,“每个人都相信正态分布,数学家认为它是一种实验事实,实验者认为它是一个数学定理”(Stigler 1975).但是中心极限定理只是在某种假设下告诉我们一个假想的极限,但我们离此极限有多远或假设条件是否满足是未知的,任何的经验检查最多只能以一定概率证明真实的分布是在某个模型分布的某个近邻内，而不能够证明它与某个模型分布确切地一致.而且应该作为正态误差法则例子的大型高质量的数据也显示出与正态分布的显著偏离(它们常常是长尾分布的):“一个心照不宣的希望是忽略了与理想模型的偏离并不会有严重后果，在严格的模型条件下最优的统计方法在近似模型下也会近似最优.不幸的是这种希望常常是非常错误的,即使轻微的偏离也会产生较我们的预料更大的影响”(Tukey,1960).