haven_t [s:16] 以吸烟与肺癌关系为例 吸烟 不吸烟 肺癌 a b 正常 c d 使用四格表进行率比较,通常我们用皮尔逊卡方检验,我能不能用二项分布进行比较呢? 如例子中不吸烟者肺癌占b/(b+d), 如果样本量较大时可以作为不吸烟者肺癌发生率。我们假定吸烟者是服从P为b/(b+d)的二项分布,我们就可以得到对a+c个吸烟者中有a人患肺癌的概率。其意义与结果是否与卡方一样呢?
haven_t 让我们先忽略过程,从假设检验的层面来思考一下,卡方检验假设是: H0:两者发病率相同. H1:两者发病率不相同. 计算结果P为接受H0的概率,也就是两者发病率相同的概率。 二项分布的方法是: 假设吸烟者肺癌发生率与不吸烟者肺癌发生率均为b/(b+d),那么在a+c人中有a个患肺癌的机率为多少。 我觉得两个结果应该是基本一致的。
holmes04 从假设检验的层面思考,假设的建立只与问题相关, H0:两者独立; H1:两者不独立; (与你说的是否等价?) 到这里为止,没有方法上的歧义,是不是我跟不上你的思路了? 再往下就是检验统计量,你是想在这里做文章吗?
dingpeng 回复 第1楼 的 haven_t: 确实,可以用二项分布的比率检验,检验是否独立。 但是为什么实际中用chi-square统计量呢,因为chi-square是由似然比得到的,通常我们认为他“可能”会有更高的功效。 事实上,这个问题很复杂,我们并不能确定上面两种方法谁的功效更大。因为,此时的备择假设是“复合”假设,与Neyman-Pearson Lemma的形式有些区别。 样本量足够大,两者应该是渐近等价的---我猜,并未证。 不过,实际中没有人用第一种,毕竟似然比的统计意义要深刻一些。
haven_t 我所讲述使用二项分布的方法并非进行是否独立检验,只是象教科书上二项分布章节所讲述的例子那样,例如抛硬币100次,我们可以算出20次正面,80次反面的概率是多少。相对应吸烟的例子,我们以不吸烟者肺癌的发病率可以算出a+c人中有a个患肺癌的概率,其实这个并非标准的假设检验,因为没有H1假设。 我只是需要对数据进行统计学处理,最近重新看统计学的书时突然冒出这个想法而已,而我并非从事统计或数学的,所以问题比较肤浅,请指教!