大语言模型的指令微调（Instruction Tuning）最全综述：从数据集到技术全解析

当前的大语言模型主要是预训练大模型，在大规模无监督数据上训练之后，再经过有监督微调和对齐之后就可以完成很多任务。尽管如此，面对垂直领域的应用，大模型依然需要微调才能获得更好地应用结果。而大模型的微调有很多方式，包括指令微调、有监督微调、提示工程等。其中，指令微调（Instruction Tuning）作为改进模型可控性最重要的一类方法，目前并没有很好的资料参。浙江大学研究人员联合Shannon AI等单位发布了一篇最新的关于指令微调的综述，详细描述指令微调的各方面内容。

大模型微调简介

此前，我们已经介绍了大模型的三类微调技术（实际案例说明AI时代大语言模型三种微调技术的区别——Prompt-Tuning、Instruction-Tuning和Chain-of-Thought）。但实际上，大模型的微调还可以分成很多种。

从微调的参数规模来说，可以简单分为全参数微调和高效参数微调。前者一般是用预训练模型作为初始化权重，在特定数据集上继续训练，全部参数都更新的方法。而后者则是期望用更少的资源完成模型参数的更新，包括只更新一部分参数或者说通过对参数进行某种结构化约束，例如稀疏化或低秩近似来降低微调的参数数量。

如果按照在模型哪个阶段使用微调，或者根据模型微调的目标来区分，也可以从提示微调、指令微调、有监督微调的方式来。本次的综述文章主要就是指令微调的综述。

类型	数据集	实例数量	任务数量	语言数	构建方式	是否泛化到未见任务	链接
泛化到未见任务	UnifiedQA	75万	46	英语	人工构建	是	UnifiedQA
	OIG	4300万	30	英语	人-机混合	是	OIG
	UnifiedSKG	80万	-	英语	人工构建	是	UnifiedSKG
	Natural Instructions	19万	61	英语	人工构建	是	Natural Instructions
	Super-Natural Instructions	500万	76	55种语言	人工构建	是	Super-Natural Instructions
	P3	1200万	62	英语	人工构建	是	P3
	xP3	8100万	53	46种语言	人工构建	是	xP3
	Flan 2021	440万	62	英语	人工构建	是	Flan 2021
	COIG	-	-	-	-	是	COIG
在单轮中遵循用户指令	InstructGPT	1.3万	-	多语言	人工构建	否
	Unnatural Instructions	24万	-	英语	InstructGPT生成	是	Unnatural Instructions
	Self-Instruct	5.2万	-	英语	InstructGPT生成	是	Self-Instruct
	InstructWild	10万	429	-	模型生成	是	InstructWild
	Evol-Instruct	5.2万	-	英语	ChatGPT生成	是	Evol-Instruct
	Alpaca	5.2万	-	英语	InstructGPT生成	是	Alpaca
	LogiCoT	-	2	英语	GPT-4生成	是	LogiCoT
	Dolly	1.5万	7	英语	人工构建	是	Dolly
	GPT-4-LLM	5.2万	-	中英文	GPT-4生成	是	GPT-4-LLM
	LIMA	1千	-	英语	人工构建	是	LIMA
像人类一样提供帮助	ChatGPT	-	-	多语言	人工构建	否
	Vicuna	7万	-	英语	用户共享	否
	Guanaco	534万	-	多语言	模型生成	是	Guanaco
	OpenAssistant	16万	-	多语言	人工构建	是	OpenAssistant
	Baize v1	111万	-	英语	ChatGPT生成	是	Baize
	UltraChat	67万	-	中英文	模型生成	是	UltraChat

领域	简介	独特性和挑战	解决思路	模型案例
对话	使模型进行自然对话	理解长序列语义联系,生成连贯回复	构建长序列对话指令数据集,扩大模型编码长度	InstructDial,ChatGPT
意图分类和槽填充	使模型进行意图分类和槽值抽取	处理不同领域的意图和词汇	构建跨领域的意图分类和槽填充指令数据集	LINGUIST
信息抽取	使模型进行结构化信息抽取	处理不同规范的信息抽取	构建规范化信息抽取指令数据集	InstructUIE
基于方面的情感分析	使模型进行观点级情感分析	理解复杂的观点和情感关系	将其转化为问答式指令	基于T5的框架
写作	使模型进行风格化写作	遵循具体写作风格和逻辑	构建丰富风格化写作指令数据集	Writing-Alpaca, CoEdIT
医学	使模型进行医学问答	需要专业医学知识,避免错误信息	在医学知识图谱上进行指令调优	Radiology-GPT, ChatDoctor
算术	使模型解决算术问题	理解不同表达方式的算术	构建多样化算术表达式指令数据集	Goat
代码	使模型进行代码生成	处理不同编程语言和规范	收集多语言代码生成指令样例	WizardCoder

方法	原理	优势	缺点
LoRA	将模型权重分解为低秩分量进行更新,使调优局限在相关任务子空间	减少调优的参数量,降低计算内存	低秩分解可能削弱模型表征能力
HINT	使用超网络根据指令和少量样例生成参数化模块进行模型调优	可以处理长指令,避免重复计算	调优模块性能可能弱于全量调优
Qlora	对模型权重进行量化,只调整低秩适配器参数	减少参数内存,兼容量化	量化会损失部分精度
LOMO	融合梯度计算和更新,避免完整梯度存储	减少梯度内存占用	需要精心设计保证收敛稳定
Delta-tuning	将调优参数限制在低维流形上	提供理论分析,参数高效	低维流形假设可能不够准确

大语言模型的指令微调（Instruction Tuning）最全综述：从数据集到技术全解析

大模型微调简介

DataLearner 官方微信

指令微调简介

指令微调常用的数据集总结

不同领域的指令微调

高效指令微调技术

热门博客