最小P值法

liuce2513

有个寻找最佳Cutoff值的统计方法叫最小P值法，请问有知道它的原理和统计操作步骤的吗？

tctcab

极大可能是极大似然估计…

liuce2513

tctcab 最小P值法又称最大卡方统计量法，反正结果就是得到一系列变量的P值，当P值最小时对应的变量值为Cutoff值

6_walnuts

liuce2513 survminer包里的surv_cutpoint函数，根据biggest/lowest value of the logrank statistics，也就是最小的P值位置，寻找cutoff

yufree

说个题外话，如果是变量选择，曾经有个发在博客上的 leekasso 算法，认为直接用最小的 10 个 p 值的变量做预测效果不次于 lasso，我等了七年都没等到正式论文写出来，但这种简单粗暴且效果不错的工程式求解思路还是很不错的，毕竟真实数据集也不符合 lasso 的假设。

nan.xiao

Leekasso 其实就是在搞笑的，在某些特定条件下预测效果不错并不代表方法合理，应该可以比较轻松地找到反例。

直观上的方法学问题都有两点，第一，对模型的自由度假设过强，当然我相信作者是为了增加喜剧效果 …… 第二，如果单变量排序这样简单的手段给回归问题做变量选择真有用的话，早就被大规模应用了，例如当某些变量间相关性比较高时，选择结果可能会不忍直视。

yufree

反例确实不难找，存在相关性变量的数据结果也一定是不忍直视。不过话说回来，如果数据中存在变量高度相关的情况，最先做的不应该是主成分分析或因子分析找独立潜在变量吗？既然A跟B高度相关或一系列变量互相相关，要么留一个，要么整合成一个，至于 Leekasso 的应用应该是在处理过符合预测变量独立性的基础之上的。当然，很多人都是二话不说不做探索分析直接套数据上模型做变量选择，这才是最危险的。

nan.xiao

从技术上说，至少在预测角度，用 factor 来做是可以的。不过我觉得这只是一种其中可能。问题在于，变量之间存在相关不一定是因为存在 latent factor。比如，变量本身天然存在某种结构，把多个变量组合成一个 factor 或者只选其中一个并不合适，更容易让人接受的处理是 structured regularization。又如，数据维度高了以后由于几率问题出现虚假相关的情况自然会增加。另外，以上两种情况，即使整合成 factor 也只是解决了预测问题，并没有解决选哪些的决策问题。

yufree

这个问题还是看研究目的与背景。从预测上说，建模前肯定是要先探索变量间关系的，变量相关确实只是一种情况，碰上存在变量间具有多层级结构，线性组合的潜在变量确实白给，属于南辕北辙，加正则化可能也不会太好使，重点还是理解数据产生过程，根据实际情况建模，我不认为存在通用解，都是先试错或基于数据生成背后的物理/化学/生物知识。关于变量选择，如果数据预先调为独立因子，可以直接在独立因子上进行变量选择，然后看变量投影来回溯原始变量影响或权重来决策。不过变量选择也是要看问题背景，如果两个预测变量真的很接近，其实选谁不选谁对结果影响不大，就看故事要怎么讲了。

tctcab

题外话，仔细一看leekasso原来是鼎鼎大名的Jeff Leek的大作阿

啊哈哈哈哈