http://blog.renren.com/blog/241554042/467526105
用统计学分析了富士康跳楼的规律,很有意思。
关于富士康跳楼曲线的Logistic回归分析
今天又死一个,按照这个速度,还有死6个才到饱和数22.
郭台铭又要难受了。
没人人的账号……
已经出了一个反驳版本了。
先不管内容对不对,起码标题是不对的:这显然不是logistic回归(因变量二分类),只不过是一种非线性回归模型,曲线用了logistic曲线而已。
而且我看作者貌似是用“目测”方法得到曲线的参数的……
回复 第5楼 的 谢益辉:我也正好想来讨论一下这件事呢,没想到就有人转了。我觉得作者的前半部分做的还挺有启发意义的,如果跳楼数有明显的指数关系,那么就有理由怀疑自杀具有某种传染性(传染病的SI模型)。不过后面的目测就确实是在忽悠了,我自己也试着做了做logistic曲线的拟合,感觉用现有的数据很不好做。
另外很期待听听站长对这篇文章的意见:
http://blog.renren.com/blog/236872939/467723679?isDeclare=false
这篇文章用了GLM,看上去比上一篇文章更有统计味一些(我对GLM确实不怎么了解,所以也看不出什么好坏来)。但是作者在下面的评论里说”我覺得我上面做的是在這組數據的基礎上可以做的最科學的統計方法了“,倒是未必。肯定还是能挖掘出更深层的信息出来的,比如说我上面说到的指数关系。
另外后来的这篇文章的作者在评论里也写到了一些东西,有些是对的,有些肯定是错的,而另外一些我则想在此确认一下:
”離散的應變量肯定不能用linear regression,雖然國內非統計的很多都這麼做,其實是錯誤的“
——这句话确有其事吗?
”樣本相關的話要有修正的,這個一般會用generalized mixed model,很麻煩,一般都是要mutually independent,這是一個基本假設“
——这句话又是在说些什么呢?
回复 第6楼 的 月珥:就你前一个问题来看,关于流行性传染扩散模型,一个类似的生动案例可参见Numb3rs第1季第9集,讲述连续发生的9次枪击案;我觉得之前的砍杀幼儿案也是这种扩散路径。
回复 第5楼 的 谢益辉:这个人估计统计不是很好,他实际用的是logistic阻滞生长曲线来拟合的,他误以为是logistic回归了,不过他这个思路我很赞赏。
回复 第6楼 的 月珥:恐怕站长真的理解错了,他用的不是logistic回归,而是logistic阻滞生长模型。原文作者不是很懂统计,站长也不是很懂生物统计。
回复 第6楼 的 月珥:其实目测也未必不是个办法,哈哈,做计算的人往往过于相信计算机和模型,其实大多数模型在做的事情无非也就是在根据某种准则去最优化某个目标函数,眼睛为什不就不能是准则之一呢?
后来这篇文章,看起来的确非常符合美国统计研究生的教育模式,一招一式,都是非常标准的GLM分析过程,最后也点出了关于回归预测的一个普遍问题:自变量区间内的预测通常问题不大,但外推往往要慎之又慎。一般来说,线性模型的外推预测都会出现方差非常大的情况(预测区间很宽),所以这文章的结论其实也并没有什么令人称奇之处。
如果说这个分析是目前为止看到的最科学的方法,倒也问题不大,要是说是在这组数据上的最科学的方法,可能也未必。首先,作者并没有交待为什么要把自变量(天数)划分为以100天为单位的区间,然后将因变量在这些区间内汇总。既然能按100天划分,为什么不能按月或按50天?这些划分下,分析的结论仍然会一样么?(外推的结论会一样)
離散的應變量肯定不能用linear regression,雖然國內非統計的很多都這麼做,其實是錯誤的
这里的linear regression指的应该是普通的高斯-马尔科夫线性回归模型,因变量需要服从正态分布,所以不可能是离散的;至于非统计的人是否这样做,我不太清楚,但确实有些人把定序变量当做数值变量来做普通的回归。离散的因变量有它自己的分布,强行用正态分布不合适。
樣本相關的話要有修正的,這個一般會用generalized mixed model,很麻煩,一般都是要mutually independent,這是一個基本假設
传统的回归模型(或广义线性模型)都要求因变量相互独立,如果不独立,那么:(1)理想情况:因变量的方差阵如果已知,那么可以用广义最小二乘(回归模型左右同乘以V^{-1/2}转化为普通回归模型,协方差阵为对角阵),当然这是不太现实的;(2)一般情况:针对因变量之间相关的结构,可以用混合效应模型
回复 第10楼 的 谢益辉:那统计是不是经常被当成电脑算命来用了。
.
[attachment=205027,310]