PA

Pangu Pro MoE

聊天大模型

Pangu Pro MoE

发布时间: 2025-06-30更新于: 2025-07-01 09:04:541,157

在线体验GitHub Hugging Face Compare

模型参数

719亿

上下文长度

32K

中文支持

支持

推理能力

Pangu Pro MoE 是由华为发布的 AI 模型，发布时间为 2025-06-30，定位为聊天大模型，参数规模约为 719.0B，上下文长度为 32K，模型文件大小约 129.39 GB，采用 Pangu Model License Agreement Version 1.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Pangu Pro MoE

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

32K tokens

最大输出长度

32768 tokens

模型类型

聊天大模型

发布时间

2025-06-30

模型文件大小

129.39 GB

MoE架构

是

总参数 / 激活参数

719 亿 / 165 亿

知识截止

暂无数据

Pangu Pro MoE

开源和体验地址

代码开源状态

预训练权重开源

Pangu Model License Agreement Version 1.0- 免费商用授权

GitHub 源码

https://gitcode.com/ascend-tribe/pangu-pro-moe

Hugging Face

https://gitcode.com/ascend-tribe/pangu-pro-moe-model

在线体验

暂无在线体验地址

Pangu Pro MoE

官方介绍与博客

官方论文

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

DataLearnerAI博客

华为开源2个Pangu大模型：分别是MoE架构，720亿总参数，160亿激活参数的Pangu Pro MoE以及Pangu Embedded，评测结果略超同级别的Qwen3

Pangu Pro MoE

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

Pangu Pro MoE

评测结果

Pangu Pro MoE 当前已收录的代表性评测结果包括 DROP（1 / 9，得分 91.20）、MMLU（14 / 65，得分 89.30）、MATH-500（15 / 44，得分 96.80）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

常规模式

89.30

14 / 65

常规模式

82.60

45 / 124

常规模式

73.70

94 / 175

阅读理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

91.20

1 / 9

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

常规模式

96.80

15 / 44

常规模式

79.20

31 / 62

常规模式

68.10

75 / 106

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

59.60

67 / 118

查看评测深度分析与其他模型对比

Pangu Pro MoE

发布机构

华为

查看发布机构详情

Pangu Pro MoE

模型解读

Pangu Pro MoE 是一款基于混合专家（MoE）架构的大语言模型。传统的 MoE 模型在扩展模型尺寸时能有效降低计算成本，但也面临着专家负载不均衡的关键挑战，这会影响分布式系统上的训练和推理效率。

为了解决这一问题，研究人员开发了混合分组专家（MoGE）架构。该架构将所有专家平均分成数组，在为每个输入词元（token）选择专家时，会从每个组内选择相同数量的专家。通过这种方式，MoGE 能有效地平衡分配在不同计算设备上的计算负载，从而在训练和推理场景下提升吞吐量。

基于 MoGE 架构，Pangu Pro MoE 被构建出来，其总参数量为 720 亿，每个输入词元会激活其中的 160 亿参数。该模型在多个方面针对昇腾（Ascend）NPU 进行了优化设计，包括模型结构、推理策略、系统级并行与通信策略，以及专门优化的计算核心（如 MulAttention 和 SwiftGMM）。

模型训练

Pangu Pro MoE 的训练流程分为预训练和后训练两个阶段。

预训练：数据：模型使用了包含 13 万亿词元的高质量、多样化语料库进行预训练。阶段：预训练过程分为三个顺序阶段：通用阶段 (9.6T tokens)：旨在发展模型的通用知识和语言能力。推理阶段 (3T tokens)：通过增加 STEM、代码和内部数据等复杂数据的比例来提升模型的推理技能，此阶段训练序列长度从 4K 增加到 32K。退火阶段 (0.4T tokens)：作为预训练到后训练的过渡，增加了指令型数据的比例，并优先选择质量和难度得分更高的数据。训练参数：整个预训练过程使用 AdamW 优化器，并分阶段采用不同的余弦学习率和批次大小策略，以确保模型稳定收敛。
后训练对齐：监督微调 (SFT)：SFT 数据以 3:1 的比例侧重于推理任务，如数学解题和代码生成。训练采用两阶段渐进式优化策略，并应用了一种检查点合并技术，通过聚合来自单一 SFT 训练轨迹中不同阶段的检查点，来提升模型的鲁棒性和泛化能力。强化学习 (RL)：模型采用 GRPO (Group Relative Policy Optimization) 算法进行策略学习，并引入“零优势掩码”机制来处理所有生成回复奖励相同时的训练停滞问题。此外，系统还利用一个多源奖励系统，根据任务特点（如数学、代码或开放领域写作）调用不同的评估器来提供更精细的奖励信号，并实施课程学习策略，根据模型反馈动态调整训练样本的难度组合。

性能表现

基准评测：在全面的基准测试中，Pangu Pro MoE 表现出很强的竞争力。与 Qwen3-32B、GLM4-32B、Gemma3-27B 等模型相比，Pangu Pro MoE 在 MMLU、MMLU-Pro、C-Eval 等多个中英文基准以及 GSM8K、MATH-500 等推理基准上取得了领先或相当的结果。评测结果显示，该模型仅用 160 亿激活参数，便达到了与 320 亿参数规模的SOTA（state-of-the-art）模型相当的推理能力。
推理效率：在昇腾 800I A2 和 300I Duo 平台上，Pangu Pro MoE（配置为 72BA16B）展现了高效的推理性能。与 32B 和 72B 的稠密模型相比，它在预填充（Prefill）阶段的吞吐量分别提升了 42% 和 203%。在解码（Decode）阶段，无论是在低并发场景下的低延迟，还是在高并发场景下的高吞吐量，它都表现出显著优势。
量化性能：在 W8A8 量化配置下，模型实现了接近无损的准确率；即使在 W4A8 量化下，其精度损失也保持在可接受的范围内。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码