OpenAI官方教程:如何使用基于embeddings检索来解决GPT无法处理长文本和最新数据的问题
这是OpenAI官方的cookebook最新更新的一篇技术博客,里面说明了为什么我们需要使用embeddings-based的搜索技术来完成问答任务。

尽管GPT的能力很强,但是OpenAI认为,基于embeddings的搜索依然十分重要。甚至,这种方式比模型做fine-tuning更好。本篇博客将简单介绍一下为什么OpenAI认为目前基于embeddings的搜索是GPT的最强补充能力!
一、GPT的缺点
尽管目前GPT-4或者ChatGPT的能力已经很强大,但是目前它依然有很大的缺陷:
- 训练数据是基于2021年9月之前的数据,缺少最新的数据
- 无法访问我们无法公开的文档
- 基于历史会话中获取信息
因此,OpenAI发布了这样一篇文档,说明如何使用两步搜索回答来增强GPT的能力:
- 搜索:搜索您的文本库以查找相关的文本部分。
- 请求:将检索到的文本部分插入到发送给GPT的消息中,并向其提出问题。
二、为什么搜索比fine-tuning更好?
GPT可以通过两种方式学习知识:
- 通过模型权重(即在训练集上微调模型)
- 通过模型输入(即将知识插入到输入消息中)
