6_walnuts liuce2513 survminer包里的surv_cutpoint函数,根据biggest/lowest value of the logrank statistics,也就是最小的P值位置,寻找cutoff
yufree 说个题外话,如果是变量选择,曾经有个发在博客上的 leekasso 算法,认为直接用最小的 10 个 p 值的变量做预测效果不次于 lasso,我等了七年都没等到正式论文写出来,但这种简单粗暴且效果不错的工程式求解思路还是很不错的,毕竟真实数据集也不符合 lasso 的假设。
nan.xiao Leekasso 其实就是在搞笑的,在某些特定条件下预测效果不错并不代表方法合理,应该可以比较轻松地找到反例。 直观上的方法学问题都有两点,第一,对模型的自由度假设过强,当然我相信作者是为了增加喜剧效果 …… 第二,如果单变量排序这样简单的手段给回归问题做变量选择真有用的话,早就被大规模应用了,例如当某些变量间相关性比较高时,选择结果可能会不忍直视。
yufree 反例确实不难找,存在相关性变量的数据结果也一定是不忍直视。不过话说回来,如果数据中存在变量高度相关的情况,最先做的不应该是主成分分析或因子分析找独立潜在变量吗?既然A跟B高度相关或一系列变量互相相关,要么留一个,要么整合成一个,至于 Leekasso 的应用应该是在处理过符合预测变量独立性的基础之上的。当然,很多人都是二话不说不做探索分析直接套数据上模型做变量选择,这才是最危险的。
nan.xiao 从技术上说,至少在预测角度,用 factor 来做是可以的。不过我觉得这只是一种其中可能。问题在于,变量之间存在相关不一定是因为存在 latent factor。比如,变量本身天然存在某种结构,把多个变量组合成一个 factor 或者只选其中一个并不合适,更容易让人接受的处理是 structured regularization。又如,数据维度高了以后由于几率问题出现虚假相关的情况自然会增加。另外,以上两种情况,即使整合成 factor 也只是解决了预测问题,并没有解决选哪些的决策问题。
yufree 这个问题还是看研究目的与背景。从预测上说,建模前肯定是要先探索变量间关系的,变量相关确实只是一种情况,碰上存在变量间具有多层级结构,线性组合的潜在变量确实白给,属于南辕北辙,加正则化可能也不会太好使,重点还是理解数据产生过程,根据实际情况建模,我不认为存在通用解,都是先试错或基于数据生成背后的物理/化学/生物知识。关于变量选择,如果数据预先调为独立因子,可以直接在独立因子上进行变量选择,然后看变量投影来回溯原始变量影响或权重来决策。不过变量选择也是要看问题背景,如果两个预测变量真的很接近,其实选谁不选谁对结果影响不大,就看故事要怎么讲了。