如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法：逐步蒸馏（Distilling step-by-step）详解

1750亿参数规模的模型需要350G的GPU显存才能做推理，显然，这样大规模的模型在实际应用中压力会很高。对于大多数产品或者团队来说，这都是一个难以负担的成本。

为此，华盛顿大学研究人员与Google的研究人员一起在5月3日公布了一个新的方法，即逐步蒸馏（Distilling step-by-step）法，这个方法最大的特点有2个：一是需要更少的数据来做模型的蒸馏（根据论文描述，平均只需要之前方法的一半数据，最好的情况只需要15%的数据就可以达到类似的效果）；二是可以获得更小规模的模型（最多可以比原来模型规模小2000倍！即可获得大模型差不多的效果）。

需要注意的是，逐步蒸馏（Distilling step-by-step）方法可以应用在所有类型的语言模型中，没有限制！这个方法应该是非常有价值的，对于未来我们做模型小型化有很大的帮助，也在推特上吸引了很多的讨论。本文将详细解释一下这个方法的核心思想。

下图是一个简单的示意图，可以看到逐步蒸馏法的优势：

本文将从如下几个方面介绍这个方法。

如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法：逐步蒸馏（Distilling step-by-step）详解

DataLearner 官方微信

当前Finetuning与Distillation方法的缺点

逐步蒸馏法（Distilling step-by-step）的特点

逐步蒸馏法（Distilling step-by-step）的原理

逐步蒸馏法（Distilling step-by-step）的实验结果

逐步蒸馏法（Distilling step-by-step）与微调方法使用数据集多少对比

逐步蒸馏法（Distilling step-by-step）与正常蒸馏方法对比

逐步蒸馏法（Distilling step-by-step）使用的模型参数对比

逐步蒸馏法（Distilling step-by-step）总结