McNemar’s Test and Chi-Squared Test
简介
McNemar 检验和卡方检验都是用于分析分类数据的统计检验方法,但它们的应用场景、检验假设和解释截然不同。McNemar 检验专用于配对设计数据,而卡方检验更常用于检验变量间的独立性。在医学诊断或其他配对比较中,选择正确的检验至关重要。
McNemar 检验
McNemar 检验适用于配对设计的二分类数据,例如同一批受试者接受两种诊断方法(如方法 A 和方法 B)。它的目的是检验两种方法在不一致对子上的分布是否对称。
- 原假设 (H₀):不一致对称,即方法 A 阳性而方法 B 阴性的概率与方法 A 阴性而方法 B 阳性的概率相同()。
- 数据格式:基于 2×2 列联表,只关注不一致的格子 b 和 c。
- 检验统计量:有两种常见形式:
- 带连续性校正:,常用于一般情况。
- 不带连续性校正:,适用于大样本。
- 自由度 df=1。如果 b + c < 25,推荐使用精确二项检验(McNemar 精确法)以避免近似误差。
- 应用场景:例如,比较两种诊断工具在相同样本上的阳性检出率是否存在系统性差异。
卡方检验
卡方检验(如 Pearson 卡方检验)用于检验两个分类变量是否独立(即是否有关联)。它假设观测样本相互独立,因此不适用于配对设计数据。
- 原假设 (H₀):两个变量独立(无关联)。
- 数据格式:基于整个 2×2 表的观察频数,计算所有格子(a, b, c, d)的差异。
- 检验统计量:使用公式 ,其中 O 为观察频数,E 为期望频数。
- 应用场景:例如,检验某种诊断方法的阳性结果是否与性别有关联。
实际应用中的关键区别
-
检验假设不同:
- McNemar 检验的假设是“不一致对称”()。
- 卡方检验的假设是“变量独立”。
👉 例如:如果方法 A 的阳性率始终比方法 B 高 20%,卡方检验可能显示二者有关联(p<0.05),但 McNemar 检验会显示不一致(p<0.05)。
-
关注点不同:
- McNemar 检验只关注不一致对子(b 和 c)。
- 卡方检验考虑所有格子,因此可能受一致对子(a 和 d)干扰。
-
数据要求:
- McNemar 检验必须用于配对数据(同一受试者多次测量)。
- 卡方检验用于独立样本,不适用于配对设计。
-
实际意义:
- McNemar 检验显著 ⇒ 两方法的阳性判定存在系统性差异,但不意味着哪种方法更准确(除非引入金标准)。
- 卡方检验显著 ⇒ 两变量分布有关联,但也不能推断准确性。
- 要比较诊断准确性(如灵敏度、特异度),必须引入金标准,并结合 McNemar 检验或 ROC-AUC 分析。
-
多方法扩展:
- 对于两种以上配对方法,使用 Cochran’s Q 检验(卡方家族扩展)。
- 若 Cochran’s Q 显著,再进行两两 McNemar 检验,并进行多重校正。
误用示例
一个常见的误用是在配对设计数据中错误地使用卡方检验代替 McNemar 检验。例如,在诊断试验中比较新方法(如手机诊断)与金标准(如医生诊断),数据如下表:
金标准阳性 | 金标准阴性 | |
---|---|---|
新方法阳性 | a = 90 | b = 10 |
新方法阴性 | c = 5 | d = 95 |
- 误用卡方检验:卡方检验可能会显示显著关联(p<0.05),因为 a 和 d 数值大,表明新方法与金标准分布相关。但这只说明“相关”,并不等于“一致”。
- 正确使用 McNemar 检验:McNemar 检验只关注 b 和 c。
- 带连续性校正:,p>0.05。
- 不带连续性校正:,p>0.05。
结果均不显著,说明两方法阳性判定无系统性差异。
- 为什么是误用:卡方检验受一致对子影响,可能误导结论。McNemar 检验才能正确评估配对方法间的一致性。
Conclusion
- 使用 McNemar 检验:当数据为配对设计,且目标是检验两方法在不一致对子上的分布是否对称。
- 使用卡方检验:当目标是检验独立样本中两个变量的独立性/关联性。
- 二者均不能直接评估诊断准确性,准确性比较需基于金标准(如灵敏度、特异度、ROC-AUC)。