wglaive Studyup 谢谢!解释的非常明白了。 看到随访就想起来longitudinal data analysis,这样也能和多次取卵周期对应上,repeat measurement什么的。 那然后和survival结合一下,感觉就是最近听说的的一个叫survival time-to-event joint model,把survival和longitudinal的东西组合一下的模型,难说会有用。。。 毕竟随访丢失啥的在longitudinal 纵向数据分析里面应该有比较成熟的处理方法? 不过 Studyup 临床上认为获得活产几率很低就不继续 这个感觉很难处理。不知道在记录上这种missing data和经济问题不继续的missing data有啥指标能区分开来吗?
Studyup wglaive wglaive 看到随访就想起来longitudinal data analysis,这样也能和多次取卵周期对应上,repeat measurement什么的。 那然后和survival结合一下,感觉就是最近听说的的一个叫survival time-to-event joint model,把survival和longitudinal的东西组合一下的模型,难说会有用。。。 我去看看文献,研究一下你说的这个模型。 wglaive 这个感觉很难处理。不知道在记录上这种missing data和经济问题不继续的missing data有啥指标能区分开来吗? 没有指标区分。所以说嘛,医学真的很需要其他学科来帮忙,有太多数据和现象需要别的学科来帮助阐明了。
CMCai0104 第一感觉还是logistics回归吧,原始数据挺好的,不过个人不建议吧数据这么合并,还是应该再构造特征(变量),例如:一次卵个数、冻的环境啊等等(不懂瞎编的),然后再建模; 如果按上面这么合并的话有点像神经网络的处理方法(有点像把图像拉成一个向量),可以参考下,当然神经网络解释原因可能比较麻烦一点; 最后,个人认为跟生存分析有点区别,毕竟生存分析一个样本不会有多个个体(看问题这里一个病人会有多个胚胎)
Studyup CMCai0104 是的,跟survival analysis是有区别的,现今也是存在争议。“再构造特征(变量)”是指什么意思呢?我现在遇到的问题就是怎么把这个表格设计好,然后用R去实现。你有什么好办法么?
CMCai0104 Studyup 其实就是尝试自己通过已经有的数据去构造一些新的变量, 因为如果简单的把多条数据的病人合并,会造成有的样本变量多,有的少,或者会有很多缺失值,这样后续会很难处理(很多模型会删除含缺失值的样本),而且效果也不一定好。根据已有的两张表构建一张新表,使得每位病人一条,而且每个病人有所有变量的值。 举个例子:假设股票,因为上市时间不同,所以数据有长有短,而且每支股票每天都有价格,而且价格起点不同,同样不能建模。所以通常会计算每支股票在某个时间段的平均收益、波动率等各种数据,通过这种数据再建模。
wglaive Studyup 嗯。。。所以可能还是先尝试用logistic回归,或者要分层的话用logistic回归的mixed model形式glmm,等需要提高精度啥的时候再看这些奇奇怪怪的模型吧
Studyup CMCai0104 CMCai0104 其实就是尝试自己通过已经有的数据去构造一些新的变量, 因为如果简单的把多条数据的病人合并,会造成有的样本变量多,有的少,或者会有很多缺失值,这样后续会很难处理(很多模型会删除含缺失值的样本),而且效果也不一定好。根据已有的两张表构建一张新表,使得每位病人一条,而且每个病人有所有变量的值。 你的意思是原本不一样长度,拿出各行有差异的变量来构造一个或几个共有的变量,然后有差异的变量删除,用新的变量替代来达到每行一样长度,且保证每行都有观测值是么? 这是一个不错的想法,现在我可能会有两个策略来解决行长度不一样的问题了: 一,构建新变量; 二,仅选取末次冻胚移植的变量(前几次冻胚移植的变量不做考虑)。 但现在有个问题就是:我是R语言刚进门不久的小学生,可不可以推荐点复杂数据清洗的相关方面的书或者网站嘞?
CMCai0104 Studyup 这两个都是数据预处理比较常用的方法和思路。至于语法方面,一般的语法 《r语言实战》之类的其实都差不多吧,网站上也有推荐的书;具体遇到问题可以baidu/google,或者可以在这个论坛或者stack overflow发帖,站内大神很多