Ringo 会的,而且你还需要检验变量是不是符合正态分布来确定是不是要用非参方法。
但这都是没办法的办法,如果你的学科知识能帮你合并相关维度那最好不过了。举例来说,抽烟喝酒经常作为控制项,但如果他们背后实际是收入水平来决定的,那你就应该直接用收入水平而不是放两个共相关的变量到你的模型里,这种降维是可以依赖前人研究的。不过,如果前人也没检查就扔模型里去了,那只能说学科的同行评议没起作用。
另外,我感觉你掉到p值的误区里去了,确实检验相关性涉及多重比较,但更常见的一个思路是直接主成分分析,重新组合出几个正交变量来建模,此时基本没人管p值的事,都正交了你比较多少次也跟另外的没啥关系。p值更多是统计学家提出的一个决策工具,跟你发现或验证的规律是否为真没关系,如果测量条件允许,你总是能通过增加样本量来使差异变得显著。假设你测量本来就存在很大误差,那么本来真实的规律可能也无法发现,好比你去验证牛顿第二定律,但因为测量误差很大,你发现其成立的p值是0.052,那么此时你会直接推翻牛顿第二定律还是说进行精度更高的实验呢?此处的p值有多少意义你可以考虑一下。此时需要优先做的是变量选择,不过那也是构建在统计推断上的,你可以考虑一下我给你 ABC三个变量让你做变量选择,后来发现漏了DEF这三个,然后你再去变量选择,此时是不是需要考虑多重比较?
另外对相关性做假设检验其实非常依赖你对数据产生过程的了解,我就遇到过两个变量相关性非常高,后来发现其中一个是根据另一个的数值用经验公式算出来的情况,这种情况p值怎么调节都处理不了,因为统计学家在设计多重比较矫正方法时根本就不会考虑这种情况。
我理解观察研究有时候根本搞不清机理而只能依赖统计推断,但也不能直接就躺平放弃治疗。很多统计量构建依赖的假设条件是与现实完全对不上的,现在确实很多人闭着眼做推断,甚至很多小学科内部用的统计方法完全就是经典方法加壳然后赋予其他含义,美其名曰专业术语就当黑箱来用了,做出的结果基本也就是小圈子内自娱自乐,别人一质疑就说他们不专业。你既然能提这样问题,说明还是打算从原理上搞清楚这些的,对此统计学能提供的信息是有限的,但你们学科积累的知识也许会帮到你。不管用什么统计量或统计方法,其实也仅仅是你论文的证据,至于读者认不认,那就是另一回事了,毕竟论文重要的在于论证的逻辑,结论大家都知道早晚都会被新证据给更新了(这里需不需要对研究同一个科学问题的多篇研究进行多重比较你可以思考一下)。没有科研人员会把单篇论文结论直接当成规律,想达成业内共识最快也得等业内大佬写综述,只不过新闻报道经常直接定性而已。
如果上面的问题你觉得没有答案,恭喜你进入真正的科研世界,前面的坑更多。