本人最近刚好要做几个有多数据集的科研。这几天了解了一下怎么把不同研究的数据组合到一起,发现这个事情如果往深里想还是有很多值得探讨的东西。
先说一下为什么不想把几个数据集当作是同一个数据集来考虑。主要的原因可以参考辛普森悖论吧。。。只是把例子里的男女变量换成不同的数据集。例如我有数据集三个数据集, 我研究的exposure在单个数据集里可能和Outcome正相关,但是如果把三个数据集组合在一起,exposure和outcome就可能负相关了。这个问题也可以涉及到其他confounder和exposure以及outcome的关系。
查了一下文献,这种数据要怎么分析,发现直接能模仿方法的文献比较少,看到的多数文献都是在讲理论。目前看到的文章里,最能提供方法指导的是这篇有关空气污染和婴儿出生体重的文章:(https://www.sciencedirect.com/science/article/pii/S0160412017301216?casa_token=7AEaes0RungAAAAA:OKkJgZSZ5e2PW6VljyzM9Sl5ZweLEGkfZvLAUib-SbJwJzj0KWOHTSXRNarK6aaApMHXF7gsXMHK)
这篇文章的主要思路是:1. 在线性回归模型里加入了一个interaction变量,这个Interaction的一个组成部分是一个数据集的indicator,另外的组成部分是可能造成heteorogencity (可以理解为辛普森悖论) 情况的变量。然后如果这个Interaction 在模型里统计学显著(pvalue<0.05),说明这个Heteorogenicity就显著。2. 计算各个confounder的OR,看看不同数据集的OR是不是方向一致。OR 方向都一致的数据集就可以当作是一个大数据集来计算exposure和outcome的关系。
另外,我还看到一些Judea Pearl有关transportability的几篇文章。本人流行病学背景,统计弱,数学水平停留在高中阶段。看Judea Pearl的文章感觉道理略懂,不知道要怎么写代码。想请教论坛里的各位有没有关于data harmonization 推荐的方法,是不是基于Pearl的transportability理论的都可以。
另外再说一下为什么不做meta-analysis....我个人觉得meta-analysis不太适合我这种只有几个数据集、每个数据集又只有几百来个变量的情况。我想harmonize 数据的目的就是为了通过增大样本量来增加study power。但是meta-analysis并不能增大样本量。还有一个原因是我手上有原始数据。而meta-analysis比较适合没有原始数据的多数据集分析。
先谢过~