超越所有开源编程大模型和GPT-3.5!华为发布150亿参数规模的编程大模型PanGu-Coder2
华为盘古大模型一直是国内大模型领域比较早的先行者,不过由于该模型并不针对个人开放,因此很少有人可以体验到该模型的效果。但是,盘古大模型一直在不断发展。2023年7月27日,华为发布最新的论文,展示了新一代盘古大模型的编程能力。该模型名字为PanGu-Coder2,论文的数据显示该模型目前超越所有开源编程大模型的效果,也超过GPT-3.5,接近GPT-4。


当前编程大模型的问题
强化学习是当前训练编程大模型最常用的方法之一,它可以为模型设定特定的奖励函数以引导大模型可以生成更好的代码。然而现有强化学习方法在代码大型语言模型(LLMs)中有很大的局限性。华为认为现有的基于强化学习的方法通常根据编译器、调试器、执行器和测试用例的反馈信号设计价值/奖励函数,但这导致了三个限制:

