如何评估大模型的创意写作能力？Creative Writing v3 评测基准介绍

Creative Writing v3 是一个用于评估大型语言模型（LLM）创意写作能力的评测基准。该基准采用混合评分系统，旨在更精确地区分不同模型，特别是顶尖模型之间的性能差异。

关于Creative Writing v3的排行榜数据可以参考DataLearnerAI的评测数据：https://www.datalearner.com/ai-models/llm-benchmark-tests/44

🎨 Creative Writing v3评测是大模型EQ-Bench情商评测中一个指标，EQ-Bench是一个专门用来评估大模型情商的评测基准，是Samuel J. Paech在2023年发布。

🎨 Creative Writing v3评测基准工作流程

🎨 Creative Writing v3评测评测基准的运作流程包含以下几个步骤：

生成内容：受评测的模型需针对32个写作提示（prompt）分别运行3次，共生成96个文本样本。生成参数设置为温度（temperature）0.7，min_p为0.1，以鼓励创作多样性。
量规评分：每个生成的文本由一个作为裁判的LLM（推荐使用Claude 3.7 Sonnet以确保与排行榜结果的可比性）根据一套全面的评分量规进行独立评分。
初始Elo评级推断：根据量规评分的总分，推断出受评测模型的初始Elo评级。
配对赛：模型将与排行榜上排名邻近的模型进行配对比较。裁判会根据多项标准，为每个标准下的胜出方授予最多5个“+”号，以体现其优势幅度。
计算Elo分数：采用Glicko评分系统计算Elo分数，该系统经过修改，会考量“+”号数量所代表的胜出幅度。
：与最终确定的邻近模型进行全面的配对赛，计算出最终的排行榜Elo分数。