DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Pangu Pro MoE
PA

Pangu Pro MoE

聊天大模型

Pangu Pro MoE

发布时间: 2025-06-30更新于: 2025-07-01 09:04:541,157
在线体验GitHubHugging FaceCompare
模型参数
719亿
上下文长度
32K
中文支持
支持
推理能力

Pangu Pro MoE 是由 华为 发布的 AI 模型,发布时间为 2025-06-30,定位为 聊天大模型,参数规模约为 719.0B,上下文长度为 32K,模型文件大小约 129.39 GB,采用 Pangu Model License Agreement Version 1.0 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Pangu Pro MoE

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
32K tokens
最大输出长度
32768 tokens
模型类型
聊天大模型
发布时间
2025-06-30
模型文件大小
129.39 GB
MoE架构
是
总参数 / 激活参数
719 亿 / 165 亿
知识截止
暂无数据
Pangu Pro MoE

开源和体验地址

代码开源状态
CC BY-SA-4.0
预训练权重开源
Pangu Model License Agreement Version 1.0- 免费商用授权
GitHub 源码
https://gitcode.com/ascend-tribe/pangu-pro-moe
Hugging Face
https://gitcode.com/ascend-tribe/pangu-pro-moe-model
在线体验
暂无在线体验地址
Pangu Pro MoE

官方介绍与博客

官方论文
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
DataLearnerAI博客
华为开源2个Pangu大模型:分别是MoE架构,720亿总参数,160亿激活参数的Pangu Pro MoE以及Pangu Embedded,评测结果略超同级别的Qwen3
Pangu Pro MoE

API接口信息

接口速度
3/5
暂无公开的 API 定价信息。
Pangu Pro MoE

评测结果

Pangu Pro MoE 当前已收录的代表性评测结果包括 DROP(1 / 9,得分 91.20)、MMLU(14 / 65,得分 89.30)、MATH-500(15 / 44,得分 96.80)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部常规

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
MMLU
常规模式
89.30
14 / 65
MMLU Pro
常规模式
82.60
45 / 124
GPQA Diamond
常规模式
73.70
94 / 175

阅读理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
DROP
常规模式
91.20
1 / 9

数学推理

共 3 项评测
评测名称 / 模式
得分
排名/总数
MATH-500
常规模式
96.80
15 / 44
AIME 2024
常规模式
79.20
31 / 62
AIME2025
常规模式
68.10
75 / 106

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
常规模式
59.60
67 / 118
查看评测深度分析与其他模型对比
Pangu Pro MoE

发布机构

华为
华为
查看发布机构详情
Pangu Pro MoE

模型解读

Pangu Pro MoE 是一款基于混合专家(MoE)架构的大语言模型。传统的 MoE 模型在扩展模型尺寸时能有效降低计算成本,但也面临着专家负载不均衡的关键挑战,这会影响分布式系统上的训练和推理效率。

为了解决这一问题,研究人员开发了混合分组专家(MoGE)架构。该架构将所有专家平均分成数组,在为每个输入词元(token)选择专家时,会从每个组内选择相同数量的专家。通过这种方式,MoGE 能有效地平衡分配在不同计算设备上的计算负载,从而在训练和推理场景下提升吞吐量。

基于 MoGE 架构,Pangu Pro MoE 被构建出来,其总参数量为 720 亿,每个输入词元会激活其中的 160 亿参数。该模型在多个方面针对昇腾(Ascend)NPU 进行了优化设计,包括模型结构、推理策略、系统级并行与通信策略,以及专门优化的计算核心(如 MulAttention 和 SwiftGMM)。

模型训练

Pangu Pro MoE 的训练流程分为预训练和后训练两个阶段。

  1. 预训练:数据:模型使用了包含 13 万亿词元的高质量、多样化语料库进行预训练。阶段:预训练过程分为三个顺序阶段:通用阶段 (9.6T tokens):旨在发展模型的通用知识和语言能力。推理阶段 (3T tokens):通过增加 STEM、代码和内部数据等复杂数据的比例来提升模型的推理技能,此阶段训练序列长度从 4K 增加到 32K。退火阶段 (0.4T tokens):作为预训练到后训练的过渡,增加了指令型数据的比例,并优先选择质量和难度得分更高的数据。训练参数:整个预训练过程使用 AdamW 优化器,并分阶段采用不同的余弦学习率和批次大小策略,以确保模型稳定收敛。
  2. 后训练对齐:监督微调 (SFT):SFT 数据以 3:1 的比例侧重于推理任务,如数学解题和代码生成。训练采用两阶段渐进式优化策略,并应用了一种检查点合并技术,通过聚合来自单一 SFT 训练轨迹中不同阶段的检查点,来提升模型的鲁棒性和泛化能力。强化学习 (RL):模型采用 GRPO (Group Relative Policy Optimization) 算法进行策略学习,并引入“零优势掩码”机制来处理所有生成回复奖励相同时的训练停滞问题。此外,系统还利用一个多源奖励系统,根据任务特点(如数学、代码或开放领域写作)调用不同的评估器来提供更精细的奖励信号,并实施课程学习策略,根据模型反馈动态调整训练样本的难度组合。

性能表现

  • 基准评测:在全面的基准测试中,Pangu Pro MoE 表现出很强的竞争力。与 Qwen3-32B、GLM4-32B、Gemma3-27B 等模型相比,Pangu Pro MoE 在 MMLU、MMLU-Pro、C-Eval 等多个中英文基准以及 GSM8K、MATH-500 等推理基准上取得了领先或相当的结果。评测结果显示,该模型仅用 160 亿激活参数,便达到了与 320 亿参数规模的SOTA(state-of-the-art)模型相当的推理能力。
  • 推理效率:在昇腾 800I A2 和 300I Duo 平台上,Pangu Pro MoE(配置为 72BA16B)展现了高效的推理性能。与 32B 和 72B 的稠密模型相比,它在预填充(Prefill)阶段的吞吐量分别提升了 42% 和 203%。在解码(Decode)阶段,无论是在低并发场景下的低延迟,还是在高并发场景下的高吞吐量,它都表现出显著优势。
  • 量化性能:在 W8A8 量化配置下,模型实现了接近无损的准确率;即使在 W4A8 量化下,其精度损失也保持在可接受的范围内。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码