卡方检验的计算步骤 卡方检验计算方法详解:步骤公式实例全面解析 卡方检验的计算公

卡方检验主要有两种常见类型:

1. 拟合优度检验: 检验一个分类变量的观察频数分布是否符合某个学说分布(如均匀分布、二项分布、正态分布等)。

2. 独立性检验: 检验两个分类变量之间是否存在关联(是否独立)。这是最常见的应用。

基本计算步骤 (以独立性检验为例,适用于 RxC 列联表):

假设我们有一个包含 `R` 行和 `C` 列的列联表 (`R x C`)。表中的每个单元格 `(i, j)` 包含观察频数 `O_ij`(表示具有第 `i` 行属性和第 `j` 列属性的个案数)。

1. 建立假设:

零假设 (H): 两个变量独立(无关联)。

备择假设 (H): 两个变量不独立(有关联)。

2. 计算期望频数:

在零假设(变量独立)下,每个单元格 `(i, j)` 的期望频数 `E_ij` 计算公式为:

`E_ij = (行 i 的总和 列 j 的总和) / 总样本量 (N)`

`行 i 的总和` = 第 `i` 行所有观察频数的总和。

`列 j 的总和` = 第 `j` 列所有观察频数的总和。

`N` = 整个表格的观察频数总和(总样本量)。

3. 计算卡方统计量:

卡方统计量 `χ2` 是通过对表格中所有单元格计算 `(观察频数

  • 期望频数)2 / 期望频数` 并求和得到的:
  • `χ2 = Σ [ (O_ij

  • E_ij)2 / E_ij ]`
  • `Σ` 表示对所有单元格求和 (`i` 从 1 到 `R`, `j` 从 1 到 `C`)。

    `O_ij` = 单元格 `(i, j)` 的观察频数。

    `E_ij` = 单元格 `(i, j)` 的期望频数。

    4. 确定自在度:

    自在度 `df` 决定了卡方分布的形状。对于 `R x C` 列联表的独立性检验:

    `df = (R

  • 1) (C
  • 1)`
  • 5. 查找临界值或计算 P 值:

    根据预先设定的显著性水平 `α`(通常为 0.05 或 0.01)和计算出的自在度 `df`,查卡方分布临界值表,找到对应的临界值 `χ2_critical`。

    或者,更常用的技巧是使用统计软件直接计算基于 `χ2` 值和 `df` 的 P 值

    6. 做出决策:

    查临界值法: 如果计算出的 `χ2 >= χ2_critical`,则在显著性水平 `α` 下拒绝零假设 `H`,认为两个变量不独立(有关联)。否则,无法拒绝 `H`。

    P 值法: 如果计算出的 P 值 <= α,则在显著性水平 `α` 下拒绝零假设 `H`,认为两个变量不独立(有关联)。否则,无法拒绝 `H`。

    重要特例:2×2 列联表 (四格表)

    2×2 表是最简单也最常见的独立性检验情形。其计算有特定的公式,并且需要考虑连续性校正(特别是当期望频数较小时)。

    观察频数表:

    | | 列 B (是) | 列 B (否) | 行总和 |

    | :

  • | :-: | :-: | :-: |
  • | 行 A (是) | a | b | a+b |

    | 行 A (否) | c | d | c+d |

    | 列总和 | a+c | b+d | N |

    期望频数 `E_ij` (计算公式不变):

    `E_a = ( (a+b) (a+c) ) / N`

    `E_b = ( (a+b) (b+d) ) / N`

    `E_c = ( (c+d) (a+c) ) / N`

    `E_d = ( (c+d) (b+d) ) / N`

    卡方统计量计算 (标准公式

  • 皮尔逊卡方):
  • `χ2 = Σ [ (O

  • E)2 / E ] = (a
  • E_a)2/E_a + (b – E_b)2/E_b + (c – E_c)2/E_c + (d – E_d)2/E_d`
  • 卡方统计量计算 (专用公式

  • 无校正):
  • `χ2 = [ N(ad

  • bc)2 ] / [ (a+b)(c+d)(a+c)(b+d) ]`
  • 分子中的 `(ad

  • bc)` 反映了关联性的路线(正相关还是负相关),平方后与路线无关。
  • 分母是四个边际和的乘积。

    卡方统计量计算 (耶茨连续性校正

  • 当期望频数较小时使用):
  • `χ2_corrected = [ N(|ad

  • bc|
  • N/2)2 ] / [ (a+b)(c+d)(a+c)(b+d) ]`
  • 注意分子中的 `|ad

  • bc|` 取完全值,并且减去了 `N/2` 进行校正。
  • 当任一期望频数 `E_ij 40` 时,或 `N < 20` 时,通常建议使用校正。但当期望频数非常小(如 `E_ij < 1`)或样本量很小(`N = 1`。

    不超过 20% 的单元格 `E_ij < 5`。

    如果期望频数太小:

    增加样本量。

    合并相关类别(如果合理且有实际意义)。

    对于 2×2 表,当 `N < 40` 或任一 `E_ij α 则没有足够证据拒绝 H。

    7. 检查期望频数是否满足要求。

    领会卡方检验的计算原理有助于正确应用和解释结局,但在实际职业中(尤其是表较大时),通常借助统计软件(如 SPSS, R, Python, Excel)来完成计算。

    版权声明

    返回顶部