大规模系统内变量关系的研究以及可视化-1因果分析
最近要做一个生物网络的东西,很可能要用到贝叶斯网络,学习学习:)
[未知用户] 啥数据?基因?
基因数据维数高,样本量少,贝叶斯网络训练太慢,可能不好用。。
一般都用markov network,训练速度很快,而且和贝叶斯网络有一定关系
基因数据维数高,样本量少,贝叶斯网络训练太慢,可能不好用。。
一般都用markov network,训练速度很快,而且和贝叶斯网络有一定关系
发现最近大家关注的领域很接近啊:)
[未知用户] 我现在还不大清楚,似乎是消化数据,数据都是医学上人体内的,量不小。我们是零起点,现在还没有正式开始,到时还得好好请教。
因果分析真的很需要,贝叶斯是个好东西:-)
[未知用户] 刘兄也关注贝叶斯网络,还是图模型咯?呵呵
[未知用户] 恩,可惜因果分析这个伟大理想常常不能如愿:) 但是只要有机会能用因果分析,还是值得一试
[未知用户] 前些日子张翔推荐我去读 sna 的东西,加上以前也看过机器学习领域的马尔可夫、贝叶斯。这篇文章启发很大啊 :)
8 天 后
“从observational study里推演因果关系”,这个做法能否介绍一下大致思路?谢谢!我们现在几乎所有的教科书都讲,“观察数据”不能推导因果关系。
[未知用户] 貌似你理解为我支持这一说法:首先我也要澄清,我并不是100%支持这个说法。我仅从理论上支持这个说法。而且这个说法的确切意思还有点独特的地方,就是:部分因果关系是可以从观测数据中得到的,如果如下三个条件满足:
1。系统内所有变量都能被测量到;这样就避免了文中所引用的例子中存在一种基因这个隐藏变量的理论上缺陷。
2。数据确实是从一个因果模型中产生的。
3。我们相信最简单的,并且能妥善解释数据的因果模型是一个好模型。
其中第三个条件其实是一个简化建模过程的问题。但是目前所有的因果推断的办法都是从这三个假设出发。比如我提到的,PC算法,IC算法。或者K2算法。前两者的基本思路是先用假设检验的办法,把系统中所有的conditional independent and dependent的关系找出来,再根据因果模型与conditional independent and dependent的关系(这是一个涉及图论方面的逻辑推理问题),从而得到所有可能的因果模型,再根据第三个假设,杀掉一些复杂而不能被domain knowledge解释的模型,往往最终能得到一个既简单,又能被人类理解的模型.(虽然这个也未必是全对,但是其中某些因果关系还是对的)-从模拟的结果来看,目前PC和IC,以及K2都做得很好,准确度还可以.具体可以参见文中所引用的那本书.
我确实见过很多教科书--尤其是回归分析的教科书一再强调--回归方程不是因果模型,回归系数不是因果关系的体现。所以这个事情还是需要谨慎对待.因为第一个条件实在是难以验证.另外,往往当一个系统实在太大的时候,PC,IC算法都会失效.
1。系统内所有变量都能被测量到;这样就避免了文中所引用的例子中存在一种基因这个隐藏变量的理论上缺陷。
2。数据确实是从一个因果模型中产生的。
3。我们相信最简单的,并且能妥善解释数据的因果模型是一个好模型。
其中第三个条件其实是一个简化建模过程的问题。但是目前所有的因果推断的办法都是从这三个假设出发。比如我提到的,PC算法,IC算法。或者K2算法。前两者的基本思路是先用假设检验的办法,把系统中所有的conditional independent and dependent的关系找出来,再根据因果模型与conditional independent and dependent的关系(这是一个涉及图论方面的逻辑推理问题),从而得到所有可能的因果模型,再根据第三个假设,杀掉一些复杂而不能被domain knowledge解释的模型,往往最终能得到一个既简单,又能被人类理解的模型.(虽然这个也未必是全对,但是其中某些因果关系还是对的)-从模拟的结果来看,目前PC和IC,以及K2都做得很好,准确度还可以.具体可以参见文中所引用的那本书.
我确实见过很多教科书--尤其是回归分析的教科书一再强调--回归方程不是因果模型,回归系数不是因果关系的体现。所以这个事情还是需要谨慎对待.因为第一个条件实在是难以验证.另外,往往当一个系统实在太大的时候,PC,IC算法都会失效.
1 个月 后
很受启发,因果关系的推定是个终极目标吧,尤其是医学上。观察性研究中的某一部分还是可以作因果推断,比如,流行病学中的队列研究,这个讲究时序性,因在前,通过对因的跟踪观察,看是否有果。当然,要达到“如果你需要推演一个系统内变量的因果关系的话,你必须保证这个系统内所有的变量都已经被测量(see computation, cauality, and discovery).”,这个在医学研究的实践中恐怕不能实现,是遥不可及。 自然界的事物一因一果的情况到底有多少呢? 事物是普遍联系永恒发展,因即是果,果也是因。 谢谢分享!
22 天 后
[未知用户] 希望有机会交流,我目前正在做一篇贝叶斯网络的实证论文,已经有了初步的结论,但还是有些算法不太理解,在运用的时候有些疑问。
19 天 后
最近刚刚读到了一篇用network analysis对数据进行分析,发现一些很有意思特性的文章,很有启发。关注一下相关发展
1 个月 后
这个方法不错,希望黄兄后面能够多提供这方面的资料!
[未知用户] 呵呵, 谢谢鼓励, 有时间一定继续:)
22 天 后
请教各位贤达:
为了考察人的胖瘦程度,设计指标时首先绝不可回避的是体重,又因为大个子有胖也有瘦,小个子也有胖有瘦,于是引入身高,自然地想到用身高/体重 这个指标去考察。
我的第一个困惑:我们几乎一眼就看出一个人是胖还是瘦,我们看出来的实际上是通过目测人的几何参数比如长宽比,那就是说我们目测胖瘦得到的结论实际跟体重无关?
我的第二个困惑:目前流行的胖瘦指标是 体重/身高平方,为什么这个指标 比体重/身高 更为合理呢 ? 判别一个指标设计的合理性有什么法则可遵循?
谢谢指点
QQ:3103060
为了考察人的胖瘦程度,设计指标时首先绝不可回避的是体重,又因为大个子有胖也有瘦,小个子也有胖有瘦,于是引入身高,自然地想到用身高/体重 这个指标去考察。
我的第一个困惑:我们几乎一眼就看出一个人是胖还是瘦,我们看出来的实际上是通过目测人的几何参数比如长宽比,那就是说我们目测胖瘦得到的结论实际跟体重无关?
我的第二个困惑:目前流行的胖瘦指标是 体重/身高平方,为什么这个指标 比体重/身高 更为合理呢 ? 判别一个指标设计的合理性有什么法则可遵循?
谢谢指点
QQ:3103060
很奇怪为啥回复在这个帖子下...
对于第二个问题, 这其实是一个选取哪个估计量(体重/身高 OR 体重/身高平方)的问题吧. 要回答这个问题, 得去找找文献里面它的最优标准是啥. 可能后者比前者更ROBUST,也可能后者风险小, 或者后者是无偏的... 答案可以很多, 要自己去找咯.呵呵
对于第二个问题, 这其实是一个选取哪个估计量(体重/身高 OR 体重/身高平方)的问题吧. 要回答这个问题, 得去找找文献里面它的最优标准是啥. 可能后者比前者更ROBUST,也可能后者风险小, 或者后者是无偏的... 答案可以很多, 要自己去找咯.呵呵
1 个月 后
all of these words, your fantastic work, let me think of "the big bang theory",
amazing work