stats

卡方检验

Jeason

1531字约5分钟

stats

2018-11-12

卡方检验

卡方检验(Chi-square test/Chi-Square Goodness-of-Fit Test)

基本概念

卡方检验是一种非参数假设检验，主要用于比较两个分类变量的关联性分析，其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

基本原理

基本思想

卡方检验是以χ2分布为基础的一种假设检验方法，它的原假设H0是：观察频数与期望频数没有差别。

首先假设H0成立，基于此前提下计算出χ2值，它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小，说明观察值与理论值偏离程度太大，应当拒绝无效假设，表示比较资料之间有显著差异；否则就不能拒绝无效假设，尚不能认为样本所代表的实际情况和理论假设有差别。

卡方值的计算与意义

对于χ2统计量的计算，最初是由英国统计学家Karl Pearson在1900年首次提出的，因此也称之为Pearson χ2，其计算公式为

\chi^2=\sum \frac{(A-E)^2}{E}=\sum_{i=1}^k \frac{(A_i-E_i)^2}{E_i}=\sum_{i=1}^k \frac{(A_i-np_i)^2}{np_i} (i=1, 2, 3, …, k)

其中，Ai为i水平的观察频数，Ei为i水平的期望频数，n为总频数，pi为i水平的期望频率。i水平的期望频数Ei等于总频数n×i水平的期望概率pi，k为单元格数。当n比较大时，χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。

由卡方的计算公式可知，当观察频数与期望频数完全一致时，χ2值为0；观察频数与期望频数越接近，两者之间的差异越小，χ2值越小；反之，观察频数与期望频数差别越大，两者之间的差异越大，χ2值越大。换言之，大的χ2值表明观察频数远离期望频数，即表明远离假设。小的χ2值表明观察频数接近期望频数，接近假设。因此，χ2是观察频数与期望频数之间距离的一种度量指标，也是假设成立与否的度量指标。如果χ2值“小”，研究者就倾向于不拒绝H0；如果χ2值大，就倾向于拒绝H0。至于χ2在每个具体研究中究竟要大到什么程度才能拒绝H0，则要借助于卡方分布求出所对应的P值来确定。

若四格表资料四个格子的频数分别为a，b，c，d，则四格表资料卡方检验的卡方值=