zamark
各位:
事情是这样的,俺投一篇文章,讲得是出血热和众多环境因素的关系。变量包括降雨、温度、高程、植被指数等等(连续变量)。还有每个地方的是否包含某种土壤类型(是否二分变量),包含某种土地利用类型(二分变量)。通过单因素卡方检验检验出危险因素,然后选P<0.25的进入Logistic回归。然后构建一个方程,找几个危险因素,搞定!
评审提了意见,说要我校验共线性,加入interaction, 还说我使用Logistic回归丢失了信息(我有发病率数据)但是没用,只是用了有无发病。
俺当时快被搞死了!变量数快30个,再搞共线性,再算interaction还让不让人活了!我就把发病率分组分成高中低,然后都和没发病地区比做卡方检验了。
然后评委暴怒,二审骂我狗血喷头,还好没毙了。现在向大家请教一下如何办?我想做有序的多分类Logistic回归,但是,平行检验通不过。只做多分类Logistic,共线性问题怎么办?我就算搞出来谁有共线性问题,那我怎么办?
希望各位同道指点
yihui
很奇怪,你有发病率数据为什么要将之离散化而做Logistic回归,评委说得没错,这是严重丢失信息的做法。后面做分类Logistic回归丢失信息就更严重了。
多重共线性的指标VIF计算太简单了,与Logistic回归本身的理论一点关系都没有。目前我并不清楚多重共线性对Logistic回归究竟有什么本质影响(在普通回归中这种影响是很明显的),所以对评委后面的暴怒行为感到不解。有人说多重共线性在Logistic回归中和普通回归一样会增大系数估计的方差,但我没看到数学理论。Logistic回归不用求solve(t(x)%*%x),为什么会增大方差。
neige
I think you have to really think about those variables, what do they mean and is it really necessaey to add them into the model, statistics is not only about numbers and models.
I am not sure if I understand you correctly, maybe you can try CART as well.....gives more info
netcow
具体的研究,还应该要结合专业知识和变量的性质以及模型建立变量入选的标准来选择,而不仅仅是直接拟定一个变量入选模型的标准。这一点你在认真研习卫生统计学专著的时候,会看到相关的说明。
对于评委的话------使用Logistic回归丢失了信息,可能是与他对回归分析的理解有关的。那么检查一下变量的分布情况,看能否使用多元线形回归进行分析。(出血热和众多环境因素的关系。变量包括降雨、温度、高程、植被指数等等(连续变量))。严格地说你用Logistic回归分析与线形多元回归分析,其分析的角度是不同,各自对于研究的意义也是不同的,前者是用确切的概率说明了每一个字变量量变化对发病概率的影响的程度,不能用来预报发病率的大小,而后者,则可以直接由各个自变量变化的幅度来预测预报发病率的大小 ,意义不同。
衡量回归方程多元供线形的指标是容忍度tolorence=1-R2,R2是模型的判定系数,以及tolorence倒数VIF,但是在SAS和SPSS里面都未直接提供质量各指标,但是可以通过直接以运行因变量和自变量设置多恶线形回归来计算得(实现程序可以参阅有关本专著)。
当诊断得有共线性存在时,处理上也是很困难的,要么删除可疑变量,但这会导致模型的错误,另外就是增大样本含量,但也许条件限制,很难做到。
zamark
多谢各位的回复!
之所以不用线性回归,是因为所有的自变量和因变量做出来散点图 就像一个厚厚的盘子上面托着一堆疏松的米饭。(全国2000多个县里面有一半没有病例)。
我的研究创新点是用空间技术对常规手段不能获取的数据技术进行获取,然后在应用到流行病学研究中来。例如全国每个县的土壤构成,土地利用构成,每个县的降雨量、温度等等(空间差值得到的)。揭示规律,我自认为还没有那么大的本事,只是试图通过简单手段来找出一些规律。所以也没有特别想在统计方法上出什么彩,就按照常规的单因素-多因素这么做了下来,因变量就用了二分地有病和没病。
那个评审可能对统计要求比较严,所以才会对共线性,interaction比较感兴趣。我查到的文献最早1992年一个以色列的专家把线性回归中诊断共线性的手段推广到了Logistic中,在国内有几篇文献提到这个问题。
“应用stata软件实现logistic回归的共线性诊断
杨俊英 杨海涛
logistic回归是进行病因分析等常用的多元统计分析方法.但是人们在应用中发现很多情况下求出的偏回归系数不稳定,解释问题时会得出荒谬的结论,种种迹象表明多元logistic回归也如同多元线性回...
中国卫生统计 Chinese Journal of Health Statistics 2005年,第03期
多因子共线性的主成分logistic回归分析 Logistic Regression Based on Principal Component Analysis in Resolving the Co-linearity
方积乾 汪宁 董晓梅 陈雄飞
目的采用主成分改进的条件logistic解决原发性开角型青光眼病因研究中的共线性问题.方法采用1:3配比病例对照设计,利用多重线性回归中的共线性诊断技术进行共线性诊断,以主成分改进的条件logi...
中国卫生统计 Chinese Journal of Health Statistics 2003年,第04期
胃癌危险因素研究中多因子共线性的logistic回归分析 Multi-variable Collinearity in Logistic Regression Model: an Application to Study on the Risk Factors of Gastric Carcinoma
肖峰 姜又红 鞠振宇
目的探索胃癌的危险因素,并探讨研究中存在的多因子共线性的处理方法.方法采用病例对照方法,获得50名胃癌患者和50名对照的流行病学资料;PCR方法检测个体基因型;应用线性回归中的三个工具,对各研究...
中国卫生统计 Chinese Journal of Health Statistics 2001年,第03期
主成分改进的Logistic回归模型方法在流行病学分析中的应用 Application of modified logistic regression model in the analysis of epidemiology
裘炯良 郑剑宁 张扬 QIU Jiong-liang ZHENG Jian-ning ZHANG Yang
目的探讨在涉及多自变量的Logistic回归分析中变量间多重共线性的诊断和处理方法.方法应用主成分改进的Logistic回归方法进行多重共线性变量的诊断与处理. 结果去除了回归模型中变量间的多重...
中国热带医学 China Tropical Medicine 2005年,第02期
主成分Logistic回归在早期鉴别卵巢囊肿研究中的应用及其软件开发 Logistic Regression Based on Principal Component Analysis in Ovarian Cyst's Earlier Period Differential Diagnosis and its Software Development
杨海涛 杨俊英
目的:应用主成分Logistic回归分析方法对卵巢囊肿进行早期鉴别诊断,并对此实施软件开发以便于门诊辅助诊断,进而提高疾病鉴别诊断的准确性和效率.方法:首先对Logistic回归模型进行共线性诊...
数理医药学杂志 Journal of Mathematical Medicine 2006年,第04期”
我已经在二稿中将发病区域按照发病率分为高中低和无,然后高中低分别和无比(卡方)。接下来也只能做多分类的Logistic回归了!而且还得是无序的,有序的按照张文彤书里面(spss)讲得,有序多分类回归不符合平行假设,而且有一些变量在不同等级中作用是不同的!
现在头疼的是无序多分类Logistic回归的共线性诊断是不是和二分一样!
netcow
你就是将因变量设置为无需多分类,还不是一样从理论上存在有共线性 。共线性的存在是自变量与自变量之间有相关关系存在的,并不会因为你将因变量多划分了几个类,而消失。只有对其进行诊断,消除主要矛盾,才能设置最合理的变量进入模型。
vivian840618
我也看过你说的那几篇文章,logistic回归是应该考虑共线性问题,尤其当你变量很多的时候。无序多分类Logistic回归和二分类不一样,sas中要用另一个过程步去做。你可以去查阅相关的书籍。我觉得你应该参照一下
主成分改进的Logistic回归模型方法在流行病学分析中的应用 这篇文章,套他的公式去做,这的确是个消除共线性的方法,可我觉得给出这种方法的公式还不全面,没有文章或是教材具体介绍了这种方法,也请有了解的高手指点一下。(好难哦 )
losttemple
不知道岭回归是否可行?