McNemar’s Test and Chi-Squared Test

简介

McNemar 检验和卡方检验都是用于分析分类数据的统计检验方法，但它们的应用场景、检验假设和解释截然不同。McNemar 检验专用于配对设计数据，而卡方检验更常用于检验变量间的独立性。在医学诊断或其他配对比较中，选择正确的检验至关重要。

McNemar 检验适用于配对设计的二分类数据，例如同一批受试者接受两种诊断方法（如方法 A 和方法 B）。它的目的是检验两种方法在不一致对子上的分布是否对称。

原假设 (H₀)：不一致对称，即方法 A 阳性而方法 B 阴性的概率与方法 A 阴性而方法 B 阳性的概率相同（ $P (b) = P (c)$ ）。
数据格式：基于 2×2 列联表，只关注不一致的格子 b 和 c。
检验统计量：有两种常见形式：
- 带连续性校正： $χ^{2} = \frac{( ∣ b - c ∣ - 1 ) ^{2}}{b + c}$ ，常用于一般情况。
- 不带连续性校正： $χ^{2} = \frac{( b - c ) ^{2}}{b + c}$ ，适用于大样本。
- 自由度 df=1。如果 b + c < 25，推荐使用精确二项检验（McNemar 精确法）以避免近似误差。
应用场景：例如，比较两种诊断工具在相同样本上的阳性检出率是否存在系统性差异。

卡方检验（如 Pearson 卡方检验）用于检验两个分类变量是否独立（即是否有关联）。它假设观测样本相互独立，因此不适用于配对设计数据。

检验假设不同：
- McNemar 检验的假设是“不一致对称”（ $b = c$ ）。
- 卡方检验的假设是“变量独立”。
  👉 例如：如果方法 A 的阳性率始终比方法 B 高 20%，卡方检验可能显示二者有关联（p<0.05），但 McNemar 检验会显示不一致（p<0.05）。
关注点不同：
- McNemar 检验只关注不一致对子（b 和 c）。
- 卡方检验考虑所有格子，因此可能受一致对子（a 和 d）干扰。
数据要求：
- McNemar 检验必须用于配对数据（同一受试者多次测量）。
- 卡方检验用于独立样本，不适用于配对设计。
实际意义：
- McNemar 检验显著 ⇒ 两方法的阳性判定存在系统性差异，但不意味着哪种方法更准确（除非引入金标准）。
- 卡方检验显著 ⇒ 两变量分布有关联，但也不能推断准确性。
- 要比较诊断准确性（如灵敏度、特异度），必须引入金标准，并结合 McNemar 检验或 ROC-AUC 分析。
多方法扩展：
- 对于两种以上配对方法，使用 Cochran’s Q 检验（卡方家族扩展）。
- 若 Cochran’s Q 显著，再进行两两 McNemar 检验，并进行多重校正。

一个常见的误用是在配对设计数据中错误地使用卡方检验代替 McNemar 检验。例如，在诊断试验中比较新方法（如手机诊断）与金标准（如医生诊断），数据如下表：

	金标准阳性	金标准阴性
新方法阳性	a = 90	b = 10
新方法阴性	c = 5	d = 95

误用卡方检验：卡方检验可能会显示显著关联（p<0.05），因为 a 和 d 数值大，表明新方法与金标准分布相关。但这只说明“相关”，并不等于“一致”。
正确使用 McNemar 检验：McNemar 检验只关注 b 和 c。
- 带连续性校正： $χ^{2} = \frac{( ∣10 - 5∣ - 1 ) ^{2}}{15} = \frac{16}{15} \approx 1.067$ ，p>0.05。
- 不带连续性校正： $χ^{2} = \frac{25}{15} \approx 1.67$ ，p>0.05。
  结果均不显著，说明两方法阳性判定无系统性差异。
为什么是误用：卡方检验受一致对子影响，可能误导结论。McNemar 检验才能正确评估配对方法间的一致性。