Creative Writing
Creative Writing v3 是一个用于评估大型语言模型(LLM)创意写作能力的评测基准。该基准采用混合评分系统,旨在更精确地区分不同模型,特别是顶尖模型之间的性能差异。
更新于 2026年4月22日·1,576 次浏览
- 问题数量
- 32
- 发布机构
- 个人
- 评测类别
- 写作和创作
- 评测指标
- 人工评估
- 支持语言
- 英文
- 难度等级
- 中等难度
简介
用顶尖大模型来判断大模型创意写作方面的评测基准
Creative Writing评测最新大模型排名与完整榜单数据
查看 Creative Writing 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
Creative Writing 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
![]() Kimi K2 常规模式 | 88.10 | 2025-07-11 | 10000亿 | 免费商用 | |
![]() OpenAI o3 常规模式 | 87.65 | 2025-04-16 | 未知 | 闭源 | |
87.50 | 2025-07-21 | 2350亿 | 免费商用 | ||
4 | ![]() DeepSeek-R1-0528 开启思考 | 86.25 | 2025-05-28 | 6710亿 | 免费商用 |
5 | 86.10 | 2025-07-25 | 2350亿 | 免费商用 | |
6 | 86.10 | 2025-07-30 | 305亿 | 免费商用 | |
7 | 86.00 | 2025-07-29 | 305亿 | 免费商用 | |
8 | ![]() Gemini 2.5-Pro 常规模式 | 85.85 | 2025-06-05 | 未知 | 闭源 |
9 | ![]() Qwen3-Next 常规模式 | 85.30 | 2025-09-11 | 800亿 | 免费商用 |
10 | 84.90 | 2025-03-27 | 未知 | 闭源 | |
11 | ![]() DeepSeek-R1 常规模式 | 84.60 | 2025-01-20 | 6710亿 | 免费商用 |
12 | ![]() Qwen3-235B-A22B 开启思考 | 84.60 | 2025-04-28 | 2350亿 | 免费商用 |
13 | ![]() Claude Opus 4 常规模式 | 83.75 | 2025-05-23 | 未知 | 闭源 |
14 | ![]() Claude Sonnet 4 常规模式 | 83.05 | 2025-05-23 | 未知 | 闭源 |
15 | ![]() DeepSeek-V3 常规模式 | 81.60 | 2024-12-26 | 6810亿 | 免费商用 |
16 | ![]() DeepSeek-V3-0324 常规模式 | 81.60 | 2025-03-24 | 6710亿 | 免费商用 |
17 | ![]() Qwen3-32B 开启思考 | 81.00 | 2025-04-28 | 320亿 | 免费商用 |
18 | ![]() Qwen3-235B-A22B 常规模式 | 80.40 | 2025-04-28 | 2350亿 | 免费商用 |
19 | ![]() Qwen3-32B 常规模式 | 78.30 | 2025-04-28 | 320亿 | 免费商用 |
20 | 78.15 | 2024-10-22 | 未知 | 闭源 | |
21 | ![]() Qwen3-8B 开启思考 | 75.00 | 2025-04-28 | 80亿 | 免费商用 |
22 | ![]() Qwen3-30B-A3B 常规模式 | 68.10 | 2025-04-28 | 305亿 | 免费商用 |
23 | ![]() Qwen3-8B 常规模式 | 64.50 | 2025-04-28 | 80亿 | 免费商用 |





