GPT-5.1 评测详情
GPT-5.1 当前已收录的代表性评测结果包括 MMMU(2 / 28,得分 85.40)、GPQA Diamond(25 / 175,得分 88.10)、Terminal Bench Hard(2 / 13,得分 43)。并附有 2 个数据来源链接供参考。
评测结果
GPT-5.1
评测结果
综合评估
共 12 项评测评测名称 / 模式
得分
排名/总数
编程与软件工程
共 4 项评测评测名称 / 模式
得分
排名/总数
数学推理
共 6 项评测评测名称 / 模式
得分
排名/总数