超越所有开源编程大模型和GPT-3.5！华为发布150亿参数规模的编程大模型PanGu-Coder2

华为盘古大模型一直是国内大模型领域比较早的先行者，不过由于该模型并不针对个人开放，因此很少有人可以体验到该模型的效果。但是，盘古大模型一直在不断发展。2023年7月27日，华为发布最新的论文，展示了新一代盘古大模型的编程能力。该模型名字为PanGu-Coder2，论文的数据显示该模型目前超越所有开源编程大模型的效果，也超过GPT-3.5，接近GPT-4。

编程大模型再度扩张版图~https://www.datalearner.com/ai-models/pretrained-models?&aiArea=1002&language=-1&contextLength=-1&openSource=-1&publisher=-1

当前编程大模型的问题

强化学习是当前训练编程大模型最常用的方法之一，它可以为模型设定特定的奖励函数以引导大模型可以生成更好的代码。然而现有强化学习方法在代码大型语言模型（LLMs）中有很大的局限性。华为认为现有的基于强化学习的方法通常根据编译器、调试器、执行器和测试用例的反馈信号设计价值/奖励函数，但这导致了三个限制：

模型	参数规模	k=1	k=10	k=100
闭源模型
AlphaCode	11亿	17.1	28.2	45.3
Phi-1	13亿	50.6	-	-
Codex	120亿	28.81	46.81	72.31
LaMDA	1370亿	14.0	-	47.3
PaLM-Coder	5400亿	36.0	-	88.4
GPT-3.5 - OpenAI	-	48.1	-	-
GPT-3.5 - Luo et al. [2023]	-	68.9	-	-
GPT-4 - OpenAI	-	67.0	-	-
GPT-4 - Bubeck et al. [2023]	-	82.0	-	-
开源模型
CodeGen-mono	160亿	29.28	49.86	75.00
CodeGeeX	130亿	22.89	39.57	60.92
StarCoder	150亿	33.60	45.78	79.82
CodeT5+	160亿	30.9	51.6	76.7
WizardCoder	150亿	57.30	73.32	90.46
PanGu-Coder2	150亿	61.64	79.55	91.76

模型名称	参数大小	HumanEval Pass@ 1
AquilaCode-7B-multi	70亿	22.0
CodeGeeX2-6B	60亿	28.0
PanGu-Coder2	150亿	61.4

模型版本	量化精度	GPU显存	推理速度（ms/token）	HumanEval评估
PanGu-Coder2	float16	32.36	75	62.20
PanGu-Coder2-CTranslate2	int8	16.29	33	64.63
PanGu-Coder2-GPTQ	int8	16.92	51	51.22
PanGu-Coder2-GPTQ	int4	9.82	42	51.83

超越所有开源编程大模型和GPT-3.5！华为发布150亿参数规模的编程大模型PanGu-Coder2

当前编程大模型的问题

DataLearner 官方微信

PanGu-Coder2简介和训练细节

PanGu-Coder2的评估结果以及与清华大学CodeGeeX2等模型对比

PanGu-Coder2的运行资源要求

PanGu-Coder2总结

热门博客