给定算力预算下,模型大小 vs 最终 Loss
固定 C = N × D × 6 FLOPs,横轴是分配给模型参数的算力比例
算力预算
预算值
1 × 10²⁰ FLOPs
最优配置
其他配置
= 模型太小,学不动
= 数据不够,过拟合