GPT-4-Turbo的128K长度上下文性能如何?超过73K Tokens的数据支持依然不太好!
GPT-4 Turbo是OpenAI最新发布的号称性能超过当前GPT-4的模型。在新版本的ChatGPT中已经可以使用。而接口也在开放。除了速度和质量外,GPT-4 Turbo最吸引人的是支持128K超长上下文输入。但是,实际测试中GPT-4 Turbo对于超过73K tokens文档的理解能力急速下降。

GPT-4 Turbo简介
GPT-4 Turbo是OpenAI最新的开放模型,相比较此前的版本,GPT-4的知识已经更新到了2023年4月份,并且支持最高128K的超长上下文输入,约300页文本。不过,模型最大允许输出的长度是4096。
如何测试GPT-4对超长上下文理解能力的水平?
虽然GPT-4 Turbo宣称支持128K,但是有人实测结果并不理想。
前Salesforce工作人员做了这项测试,作者使用Paul Graham的论文作为上下文输入。Paul Graham是英国的计算机科学家,也是著名投资企业Y Combinator的创办者,它的论文超过了128K。
为了测试GPT-4 Turbo在超长上下文中准确定位信息的能力,作者随机在论文不同位置插入一句话“The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day.”。然后让GPT-4只能用这个论文作为回答的依据。
作者测试了很多次,这句话在文档的开头到结束不同位置,上下文长度从1K到128K不等。
作者做了15次实验,比较GPT-4 Turbo是否能准确回答结果。

