CodeForces

Name: CodeForces
Creator: 个人

随着大型语言模型（LLM）能力的飞速发展，如何科学、准确地评估其性能，特别是深度的逻辑推理和代码生成能力，已成为人工智能领域的一大挑战。传统的评测基准在面对日益强大的模型时，逐渐暴露出数据污染、难度不足、无法有效评估真实推理能力等问题。在这一背景下，一个旨在检验模型竞赛级编程水平的评测基准——Codeforces应运而生，为我们提供了一个更严苛、更接近人类程序员真实水平的竞技场。

更新于 2026年4月24日·1,819 次浏览

问题数量: 387
发布机构: 个人
评测类别: 编程与软件工程
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

一个使用编程竞赛题目测试大模型代码生成能力的评测基准

CodeForces评测最新大模型排名与完整榜单数据

查看 CodeForces 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Gemini 3 Deep Think - 2620 开启思考	3455.00	2026-02-13	未知	闭源
	DeepSeek-V4-Pro 思考水平 · 高	3206.00	2026-04-24	16000亿	免费商用
	DeepSeek-V4-Flash 思考水平 · 高	3052.00	2026-04-24	2840亿	免费商用
4	DeepSeek-V4-Pro 开启思考	2919.00	2026-04-24	16000亿	免费商用
5	DeepSeek-V4-Flash 开启思考	2816.00	2026-04-24	2840亿	免费商用
6	OpenAI o4 - mini 开启思考工具	2719.00	2025-04-16	未知	闭源
7	DeepSeek V3.2 Speciale 开启思考	2701.00	2025-12-01	未知	免费商用
8	GPT OSS 120B 开启思考工具	2622.00	2025-08-06	117亿	免费商用
9	GPT OSS 20B 开启思考工具	2516.00	2025-08-06	210亿	免费商用
10	GPT OSS 120B 开启思考	2463.00	2025-08-06	117亿	免费商用
11	DeepSeek V3.2 开启思考	2386.00	2025-12-01	6710亿	免费商用
12	GPT OSS 20B 开启思考	2230.00	2025-08-06	210亿	免费商用
13	OpenAI o3-mini 开启思考	2073.00	2025-01-31	未知	闭源
14	Qwen3-32B 开启思考	1977.00	2025-04-28	320亿	免费商用
15	Qwen3.5-27B 开启思考	1899.00	2026-02-25	270亿	免费商用
16	Qwen3-32B 常规模式	1353.00	2025-04-28	320亿	免费商用