McNemar’s Test and Chi-Squared Test

简介

McNemar 检验和卡方检验都是用于分析分类数据的统计检验方法,但它们的应用场景、检验假设和解释截然不同。McNemar 检验专用于配对设计数据,而卡方检验更常用于检验变量间的独立性。在医学诊断或其他配对比较中,选择正确的检验至关重要。

McNemar 检验

McNemar 检验适用于配对设计的二分类数据,例如同一批受试者接受两种诊断方法(如方法 A 和方法 B)。它的目的是检验两种方法在不一致对子上的分布是否对称

  • 原假设 (H₀):不一致对称,即方法 A 阳性而方法 B 阴性的概率与方法 A 阴性而方法 B 阳性的概率相同()。
  • 数据格式:基于 2×2 列联表,只关注不一致的格子 b 和 c。
  • 检验统计量:有两种常见形式:
    • 带连续性校正,常用于一般情况。
    • 不带连续性校正,适用于大样本。
    • 自由度 df=1。如果 b + c < 25,推荐使用精确二项检验(McNemar 精确法)以避免近似误差。
  • 应用场景:例如,比较两种诊断工具在相同样本上的阳性检出率是否存在系统性差异。

卡方检验

卡方检验(如 Pearson 卡方检验)用于检验两个分类变量是否独立(即是否有关联)。它假设观测样本相互独立,因此不适用于配对设计数据

  • 原假设 (H₀):两个变量独立(无关联)。
  • 数据格式:基于整个 2×2 表的观察频数,计算所有格子(a, b, c, d)的差异。
  • 检验统计量:使用公式 ,其中 O 为观察频数,E 为期望频数。
  • 应用场景:例如,检验某种诊断方法的阳性结果是否与性别有关联。

实际应用中的关键区别

  1. 检验假设不同

    • McNemar 检验的假设是“不一致对称”()。
    • 卡方检验的假设是“变量独立”。
      👉 例如:如果方法 A 的阳性率始终比方法 B 高 20%,卡方检验可能显示二者有关联(p<0.05),但 McNemar 检验会显示不一致(p<0.05)。
  2. 关注点不同

    • McNemar 检验只关注不一致对子(b 和 c)
    • 卡方检验考虑所有格子,因此可能受一致对子(a 和 d)干扰。
  3. 数据要求

    • McNemar 检验必须用于配对数据(同一受试者多次测量)。
    • 卡方检验用于独立样本,不适用于配对设计。
  4. 实际意义

    • McNemar 检验显著 ⇒ 两方法的阳性判定存在系统性差异,但不意味着哪种方法更准确(除非引入金标准)。
    • 卡方检验显著 ⇒ 两变量分布有关联,但也不能推断准确性。
    • 要比较诊断准确性(如灵敏度、特异度),必须引入金标准,并结合 McNemar 检验或 ROC-AUC 分析。
  5. 多方法扩展

    • 对于两种以上配对方法,使用 Cochran’s Q 检验(卡方家族扩展)。
    • 若 Cochran’s Q 显著,再进行两两 McNemar 检验,并进行多重校正。

误用示例

一个常见的误用是在配对设计数据中错误地使用卡方检验代替 McNemar 检验。例如,在诊断试验中比较新方法(如手机诊断)与金标准(如医生诊断),数据如下表:

金标准阳性金标准阴性
新方法阳性a = 90b = 10
新方法阴性c = 5d = 95
  • 误用卡方检验:卡方检验可能会显示显著关联(p<0.05),因为 a 和 d 数值大,表明新方法与金标准分布相关。但这只说明“相关”,并不等于“一致”。
  • 正确使用 McNemar 检验:McNemar 检验只关注 b 和 c。
    • 带连续性校正:,p>0.05。
    • 不带连续性校正:,p>0.05。
      结果均不显著,说明两方法阳性判定无系统性差异。
  • 为什么是误用:卡方检验受一致对子影响,可能误导结论。McNemar 检验才能正确评估配对方法间的一致性。

Conclusion

  • 使用 McNemar 检验:当数据为配对设计,且目标是检验两方法在不一致对子上的分布是否对称。
  • 使用卡方检验:当目标是检验独立样本中两个变量的独立性/关联性。
  • 二者均不能直接评估诊断准确性,准确性比较需基于金标准(如灵敏度、特异度、ROC-AUC)。

Reference