OpenAI发布新一代向量大模型,接口已经更新到text-embedding-3-large,embedding长度升级,价格最高下降5倍!
由于大语言模型输入长度的限制,基于外挂知识库的检索生产(Retrieval Augmented Generation,RAG)是大模型应用中非常流行的技术。检索增强生成中的一个核心步骤是检索。而基于向量相似性检索是这类系统中最重要的技术之一。决定向量检索准确性的核心是向量大模型的能力,即文本转成embedding向量是否准确。今天,OpenAI宣布了他们第三代向量大模型text-embedding,模型能力增强的同时价格下降!

OpenAI第三代向量大模型text-embedding-3简介
embedding向量是一个数字组成的向量,可以表示自然语言或者代码的语义。基于这个向量可以得出不同文本或者代码内容之间的相似性,在知识检索中用处很高。本次OpenAI发布的向量大模型包括2个版本,分别是text-embedding-3-small和text-embedding-3-large。
其中,前者是规模较小但是效率很高的模型,前任模型是2022年12月发布的text-embedding-ada-002。后者是规模更大的版本,最高支持3072维度的向量!这是目前OpenAI最强大的向量大模型,比前代的模型强很多,在MIRACL和MTEB上的得分都有提升。
