Grok-3 - Reasoning Beta 评测详情
Grok-3 - Reasoning Beta 当前已收录的代表性评测结果包括 AIME 2024(6 / 62,得分 93.30)、LiveCodeBench(31 / 118,得分 79.40)、GPQA Diamond(48 / 175,得分 84.60)。
评测结果
Grok-3 - Reasoning Beta
Grok-3 - Reasoning Beta 当前已收录的代表性评测结果包括 AIME 2024(6 / 62,得分 93.30)、LiveCodeBench(31 / 118,得分 79.40)、GPQA Diamond(48 / 175,得分 84.60)。