此页内容
stats

Fisher精确检验

Jeason

829字约3分钟

stats

2019-02-19

基本概念

Fisher精确检验是用于分析列联表的统计显着性检验。虽然在实践中它适用于样本量较小的情况,但实际上它适用于所有样本量。它可以精确的计算出差异的显著性p值,而不是卡方检验得到的近似p值。

理论依据

Fisher精确检验是基于超几何分布计算的,它分为两种,分别是单边检验(等同于超几何检验)和双边检验。

超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。超几何分布的一个形象例子是:有N件物品,M件为次品,求取n件,其中有k件为次品的概率 = (Mk)(NMnk)(Nn)\frac {\binom {M} {k} * \binom {N-M} {n-k}} {\binom {N} {n}}

基本思想

在2*2列联表中,四格表周边和(即边际分布)计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率Pi;再按照检验假设用单侧或双侧的累计概率P,依据所取的检验水准做出推断。

具体操作

假如想要知道学习好坏是否和男女性别有关,那么现在随机抽出20个人,对应的统计列联表如下:

行总数
9312
178
列总数101020

零假设:男女性别和学习好坏无关

为了知道能否拒绝零假设,我们下面做个Fisher精确检验(单侧检验)

第一步:在零假设成立时(即性别与学习好坏无关),我们随机一抽就能抽出这20个样本的概率是(超几何概率):

p1=(129)(81)(2010)=0.0095 p_1 = {\binom{12} {9} \binom{8} {1} \over \binom{20} {10}} = 0.0095

第二步:如果行总数与列总数(又叫边际总数)不变,零假设不成立时的极端情况应该是,男生学习都好,那么我们可以得到新的列联表:

行总数
10212
088
列总数101020

这时,可以计算这个表格的超几何概率:

p2=(1210)(80)(2010)=3.5723×104 p_2 = {\binom{12} {10} \binom{8} {0} \over \binom{20} {10}} = 3.5723 \times 10^{-4}

那么Fisher精确检验的P value就是两者加和,即

p1+p2=0.0099 p_1 + p_2 = 0.0099

p值越小,我们越有信心拒绝零假设。如果我们以0.05为显著性水平判断值的话,我们可以认为,男生的学习更好

注意:以上例子计算的是单侧检验的结果,对于双侧结果,一般是说在所有四格表的组合当中,将概率小于或等于原四格表的概率相加,得到双侧概率(需要进一步验证这种说法)

思考

Fisher精确检验是基于超几何分布检验的,相对于卡方检验来说,适用于小样本量的计算(卡方检验是通过大样本量来近似卡方分布求得近似的p值)