如何评估大模型的创意写作能力?Creative Writing v3 评测基准介绍
Creative Writing v3 是一个用于评估大型语言模型(LLM)创意写作能力的评测基准。该基准采用混合评分系统,旨在更精确地区分不同模型,特别是顶尖模型之间的性能差异。
关于Creative Writing v3的排行榜数据可以参考DataLearnerAI的评测数据:https://www.datalearner.com/ai-models/llm-benchmark-tests/44
🎨 Creative Writing v3评测是大模型EQ-Bench情商评测中一个指标,EQ-Bench是一个专门用来评估大模型情商的评测基准,是Samuel J. Paech在2023年发布。
🎨 Creative Writing v3评测基准工作流程
🎨 Creative Writing v3评测评测基准的运作流程包含以下几个步骤:
- 生成内容:受评测的模型需针对32个写作提示(prompt)分别运行3次,共生成96个文本样本。生成参数设置为温度(temperature)0.7,min_p为0.1,以鼓励创作多样性。
- 量规评分:每个生成的文本由一个作为裁判的LLM(推荐使用Claude 3.7 Sonnet以确保与排行榜结果的可比性)根据一套全面的评分量规进行独立评分。
- 初始Elo评级推断:根据量规评分的总分,推断出受评测模型的初始Elo评级。
- 配对赛:模型将与排行榜上排名邻近的模型进行配对比较。裁判会根据多项标准,为每个标准下的胜出方授予最多5个“+”号,以体现其优势幅度。
- 计算Elo分数:采用Glicko评分系统计算Elo分数,该系统经过修改,会考量“+”号数量所代表的胜出幅度。
- :与最终确定的邻近模型进行全面的配对赛,计算出最终的排行榜Elo分数。
