漫谈相关与回归
讨论的太好了!
请教个问题,如果说A和B的相关系数是0.8,就像文中所说的,那么用平时的语言,如果来解释这个0.8的经济学含义?
请教个问题,如果说A和B的相关系数是0.8,就像文中所说的,那么用平时的语言,如果来解释这个0.8的经济学含义?
不错,浅显易懂,只能深入了才能浅出哈
[未知用户] 其实你这个问题问的是不完整的!既然你提到其经济意义,那么A和B究竟是指的是什么呢?
0.8这个数字只能说比0.3更应引起你的注意,投入更多的注意力去了解背后更深秘密。仅此而已!!
0.8这个数字只能说比0.3更应引起你的注意,投入更多的注意力去了解背后更深秘密。仅此而已!!
好文章!能读的“懂”的其实就不错了!
很受启发,也来多说两句关于直方图的话题:)
显然,直方图和“经验分布”Fn(x)密切相关。Glivenko已经证明,当n→∞时,Fn(x)→F(x),其中F(x)是分布函数。
直方图的组距又牵涉到“聚类分析”这个方法。
如果分组数量→∞,则显然直方图→分布函数曲线,这是非常理想的,但实际工作中,重复抽样的代价通常交大,无法让n极大。
那么,分组数量究竟取多少合适?只有聚类分析才能给出完满的回答。
直方图的下限取多少?这又与抽样分布、方差、置信度密切相关。
显然,直方图和“经验分布”Fn(x)密切相关。Glivenko已经证明,当n→∞时,Fn(x)→F(x),其中F(x)是分布函数。
直方图的组距又牵涉到“聚类分析”这个方法。
如果分组数量→∞,则显然直方图→分布函数曲线,这是非常理想的,但实际工作中,重复抽样的代价通常交大,无法让n极大。
那么,分组数量究竟取多少合适?只有聚类分析才能给出完满的回答。
直方图的下限取多少?这又与抽样分布、方差、置信度密切相关。
楼主谈的话好像很具体,其实蛮可以用图表的方式说明一下
像您所惊讶的,直方图与经验分布函数,非参有联系,很受启发
提些建议,统计文章可以更简洁一些,有时候说多了,容易把人说晕,感觉很好,读来却得到不多,收获不多
您提到的相关,貌似只是两个变量的简单相关,简单相关反映相关关系部完善的,可以再谈一下,复相关,典型相关,可以谈一下的相关系数的计算方法,可以谈一下回归和相关如何具体结合使用,
像您所惊讶的,直方图与经验分布函数,非参有联系,很受启发
提些建议,统计文章可以更简洁一些,有时候说多了,容易把人说晕,感觉很好,读来却得到不多,收获不多
您提到的相关,貌似只是两个变量的简单相关,简单相关反映相关关系部完善的,可以再谈一下,复相关,典型相关,可以谈一下的相关系数的计算方法,可以谈一下回归和相关如何具体结合使用,
不是批评,呵呵,因为从本科就学统计,一直学统计,所以共勉,呵呵
[未知用户] 谢谢你的建议,写的东西不够简洁确实是我一直的问题,老师也批评了多次,正在改这个写东西拖沓的毛病。
[未知用户] 推荐一篇关于直方图的文章一起学习,具体见COS论坛的数理统计版
有一段时间没来这儿转转了。谢谢LZ与大家分享心得的体会。
LZ可以写一些主成分回归的内容嘛,当然,这只是俄的拙见。
LZ可以写一些主成分回归的内容嘛,当然,这只是俄的拙见。
[未知用户] 我觉得在可以画密度曲线的今天,直方图可以放入历史卷轴中封存了。虽然如飞燕给的那篇论文所示,直方图的理论并不简单,但它说到底只是一种(粗糙的)非参数的密度估计,而且其形状受带宽(组距)和分组的起点影响,对于前者,我没搞清楚怎么会跟“聚类分析”联系上,miniwhale能否解释一下呢;对于后者,因为它不如带宽问题那么吸引眼球,貌似历史上也没针对它推出漂亮的公式,所以似乎被很多人忽略了,往往就把数据的最小值作为分组的起点了,这种做法未必科学,好在有一种直方图叫Averaged Shifted Histogram就是解决这个问题的。
[未知用户] 我觉得主成分回归也应该放入统计学历史卷轴封存起来(我咋成愤青了……),不用再拿出来了,用偏最小二乘回归代替它。个人观点,参见:http://yihui.name/cn/2008/09/principle-component-regression-and-partial-least-square-regression/
[未知用户] 这里的文章可以不断编辑改进,发表的不一定是最终稿:)另外在此推荐一篇范文:http://www.loyhome.cn/679.html (图片都是作者自己编辑的)当然我们不必那么高要求,不过读者肯定是喜欢带图的文章的,呵呵。
[未知用户] 前面的有些笔误,请斑竹帮我删除,谢谢!
对于统计学者,pdf的价值肯定高于直方图,但是为了得到pdf,哪怕是近似的,也要n非常大。这在实际生活中,很难做到。
有些时候,我们的报告需要给领导之类的外行看,他们会对pdf感兴趣?比如ARPU(平均每用户收入)分析,领导只希望简单的看到0~50、50~100、100~150、150~200、〉200这5档数据。统计学者可能会对直方图省略细节的特点吹毛求疵,可普通人只会觉得通俗易懂。别忘了外行对于pdf概率处处为0,可积分后概率不为1这一点就需要仔细解释。
对于离散总体,pdf退化,需要引入冲击函数δ,但与其费劲的引入广义函数,还不如直接采用直方图呢。
以上是直方图优越于pdf的3个场合。
至于直方图与聚类分析的关系其实很容易解释。工作中,我们经常需要对数据划分档次,比如前面的5档0~50、50~100、100~150、 150~200、〉200。这个档次划分很直观,但是否科学?经常有这样的遗憾,只差1就可以换档。这样的遗憾不可避免,但可以最大限度的减少。如果用户在50元附近很多,50就绝不是一个好的分界点,如果80附近用户较少,80就是一个好的分界点。但这样的描述过于简单,全面的考虑就必须引入聚类分析。通过聚类,观察数据的分布,从而较好地划分档次标准,最后根据这个档次标准进行定性分析。
对于统计学者,pdf的价值肯定高于直方图,但是为了得到pdf,哪怕是近似的,也要n非常大。这在实际生活中,很难做到。
有些时候,我们的报告需要给领导之类的外行看,他们会对pdf感兴趣?比如ARPU(平均每用户收入)分析,领导只希望简单的看到0~50、50~100、100~150、150~200、〉200这5档数据。统计学者可能会对直方图省略细节的特点吹毛求疵,可普通人只会觉得通俗易懂。别忘了外行对于pdf概率处处为0,可积分后概率不为1这一点就需要仔细解释。
对于离散总体,pdf退化,需要引入冲击函数δ,但与其费劲的引入广义函数,还不如直接采用直方图呢。
以上是直方图优越于pdf的3个场合。
至于直方图与聚类分析的关系其实很容易解释。工作中,我们经常需要对数据划分档次,比如前面的5档0~50、50~100、100~150、 150~200、〉200。这个档次划分很直观,但是否科学?经常有这样的遗憾,只差1就可以换档。这样的遗憾不可避免,但可以最大限度的减少。如果用户在50元附近很多,50就绝不是一个好的分界点,如果80附近用户较少,80就是一个好的分界点。但这样的描述过于简单,全面的考虑就必须引入聚类分析。通过聚类,观察数据的分布,从而较好地划分档次标准,最后根据这个档次标准进行定性分析。
[未知用户] 直方图的解释和密度函数曲线完全是类似的,只不过一个是长方形,一个是曲线而已,都是看高低。历史上前者出现的早,后者晚,我觉得在解释上并没有什么高深之处,你说的问题在密度函数曲线中都不存在,也无需聚类,数据密集的地方,密度自然就大(曲线自然就高)。离散总体的密度估计莫非不就是一个频数表?冲击函数从何而来,能否给篇文献参阅一下?
如果我们做统计研究的人都不向密度曲线倾斜,其他人就更会抱着直方图五百年不放了。
如果我们做统计研究的人都不向密度曲线倾斜,其他人就更会抱着直方图五百年不放了。
当你融会贯通后,一定会把直方图与pdf曲线规为一类。但直方图中长方形的高低反映的是一个“区间”上的概率,而pdf曲线反映的是每个点的概率密度,别忘了,在每个点上的概率是0!
离散总体的概率分布是一个频数表,但离散总体的概率密度函数是什么,这可不能用普通的函数加以描述。
比如,一般的教材中都会有:离散分布有ΣPi=1;连续分布有∫P(x)dx=1。从概念上看,这两个公式反映的都是一个事实,即P(Ω)=1。那么能否把这两个公式统一为一个公式?答案是只有引入广义函数:狄拉克δ后才可以。
首先:Σ针对可列无穷,∫针对连续统,因此尽量考虑把这两个公式往∫P(x)dx=1的形式统一。
但是对于离散总体,在x=i这点,概率为Pi,概率密度是多少?用不严谨的话来说是无穷大!这不是普通函数可以描述的。
还可以从cdf的角度看,对于对于离散总体,在x=i这点,累计概率从a阶跃到了b,b-a=Pi,cdf不连续!pdf是cdf的微分,因此在x=i这点,pdf不存在。
所以,无法将上面两个公式统一为∫P(x)dx=1。
数学上(其实历史上是先从电工领域的信号与系统分析中)为了描述这种冲击/阶跃,对函数的定义作扩充,引入了Dirac δ函数(wikipedia.org上有关于狄拉克δ函数,Dirac Delta function的词条),引入Dirac δ广义函数后,在x=i这点,概率密度就是Piδ,此时可以把上述两个公式统一为∫P(x)dx=1。
我并非数学专业,以上是我个人给出的感悟,没在其他书上看到过,必定存在不严谨之处,但大意应该是正确的。
至于最后的问题,我不是统计专业的,只是在工作中对此感兴趣而以,所以不要对我苛求喔。:)
离散总体的概率分布是一个频数表,但离散总体的概率密度函数是什么,这可不能用普通的函数加以描述。
比如,一般的教材中都会有:离散分布有ΣPi=1;连续分布有∫P(x)dx=1。从概念上看,这两个公式反映的都是一个事实,即P(Ω)=1。那么能否把这两个公式统一为一个公式?答案是只有引入广义函数:狄拉克δ后才可以。
首先:Σ针对可列无穷,∫针对连续统,因此尽量考虑把这两个公式往∫P(x)dx=1的形式统一。
但是对于离散总体,在x=i这点,概率为Pi,概率密度是多少?用不严谨的话来说是无穷大!这不是普通函数可以描述的。
还可以从cdf的角度看,对于对于离散总体,在x=i这点,累计概率从a阶跃到了b,b-a=Pi,cdf不连续!pdf是cdf的微分,因此在x=i这点,pdf不存在。
所以,无法将上面两个公式统一为∫P(x)dx=1。
数学上(其实历史上是先从电工领域的信号与系统分析中)为了描述这种冲击/阶跃,对函数的定义作扩充,引入了Dirac δ函数(wikipedia.org上有关于狄拉克δ函数,Dirac Delta function的词条),引入Dirac δ广义函数后,在x=i这点,概率密度就是Piδ,此时可以把上述两个公式统一为∫P(x)dx=1。
我并非数学专业,以上是我个人给出的感悟,没在其他书上看到过,必定存在不严谨之处,但大意应该是正确的。
至于最后的问题,我不是统计专业的,只是在工作中对此感兴趣而以,所以不要对我苛求喔。:)
3 个月 后
[未知用户] 个人觉得直方图和pdf各有优势,直方图“粗超”,pdf精细。但是论“粗超”它能“粗超”过平均值?它粗超,所以它犯错的概率就大大减少。pdf至于统计理论的发展,以及再推动统计的应用有着强大的作用,甚至可以推动直方图的进步。但在面对实际问题的时候,无疑应用者不敢相信或者不必要相信如此精细的一个估计。而直方图就是上上选了。
2 个月 后
[未知用户] me,too
5 个月 后
我的困惑:
实际物理规律决定了Y=X,
实际观测到一系列(Xi,Yi)数据
回归结果是 Y=K*Xi+C
可以知道回归的残差主要是由 A,B,两个因素导致(干扰)
分析的目的是要确定A,B两个因素是怎样导致残差变化,并进而控制它们。
该怎样进行分析?是要看A、B两因素对残差的方差贡献率吗?
QQ:3103060
实际物理规律决定了Y=X,
实际观测到一系列(Xi,Yi)数据
回归结果是 Y=K*Xi+C
可以知道回归的残差主要是由 A,B,两个因素导致(干扰)
分析的目的是要确定A,B两个因素是怎样导致残差变化,并进而控制它们。
该怎样进行分析?是要看A、B两因素对残差的方差贡献率吗?
QQ:3103060