如何解决大模型微调过程中的知识遗忘？香港大学提出有监督微调新范式并开源新模型LLaMA Pro

大语言模型一个非常重要的应用方式就是微调（fine-tuning）。微调通常需要改变模型的预训练结果，即对预训练结果的参数继续更新，让模型可以在特定领域的数据集或者任务上有更好的效果。但是微调一个严重的副作用是可能会让大模型遗忘此前预训练获得的知识。为此，香港大学研究人员推出了一种新的微调方法，可以保证模型原有能力的基础上提升特定领域任务的水平，并据此开源了一个新的模型LLaMA Pro。

当前大语言模型微调的缺点：知识遗忘

经典的大语言模型微调通常有2类方法：一种是冻结大模型部分参数（通常是前几层），然后让其他参数在模型新的训练中继续更新参数。很多研究认为前几层的特征是基础特征，越靠近后面的网络约与应用相关，因此针对特定领域微调可以采取这种方式。另一种经典的方法是使用预训练结果模型初始化，然后在新的数据集上训练，更新所有参数。

第一种方法效率很高，而且可以保留预训练学到的一些知识。不过灵活性和高度定制化的场景可能不够。而第二种方法可以更好地使用任务，不过计算成本和过拟合风险很高。

这两种方法的共同缺点都是知识遗忘。只是程度不同，原因都是在于有参数变化，即权重的调整。

数据集来源	具体数据集名称	Tokens数量	权重
Proof-Pile-2（数学）	AlgebraicStack	110亿	1.0
Proof-Pile-2 （数学）	OpenWebMath	150亿	1.0
Proof-Pile-2 （数学）	ArXiv	290亿	1.0
The-Stack-Dedup （代码）	Python	220亿	1.5

数据集	问题来源	回复来源	数量	对话轮数	输入长度	返回长度
ShareGPT	User prompts	GPT-3.5/GPT-4	63,817	2.9	293.2	1157.1
WizardLM_evol_instruct_V2	GPT-4	GPT-4	143,000	1.0	602.6	1704.9
SlimOrca	Human-written	GPT-4	517,982	1.0	574.3	599.3
MetaMath	Human-written/GPT-4	GPT-4	395,000	1.0	209.4	498.2
Evol-CodeAlpaca	GPT-4	GPT-4	111,272	1.0	652.5	1552.0

Method	Overall Performance (OP)	Backward Transfer (BWT)
LoRA	37.1	-17.3%
SeqFT	45.5	-14.7%
Block Expansion	46.5	-14.3%

如何解决大模型微调过程中的知识遗忘？香港大学提出有监督微调新范式并开源新模型LLaMA Pro

当前大语言模型微调的缺点：知识遗忘

大模型微调新方法：Block Expansion

DataLearner 官方微信

LLaMA Pro模型介绍

LLaMA Pro的评测结果

Block Expansion与传统有监督微调（LoRA和SeqFT）对比

LLaMA Pro总结

热门博客