BGE-M3-Embedding-Unsupervised
BGE-M3-Embedding-Unsupervised 是由 北京智源人工智能研究院 发布的 AI 模型,发布时间为 2024-01-30,定位为 embedding模型,参数规模约为 1.13B,上下文长度为 8K,模型文件大小约 2.27GB,采用 MIT License 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
BGE-M3-Embedding是北京智源人工智能研究院开源的一个最新的Embedding大模型,最大的特点是功能很多,体现在三个层面,包括支持100多种语言、支持短句到长文(最高8K输入)、以及支持多种不同的功能。
BGE-M3-Embedding有2个版本,一个是在大量数据做 contrastive learning之后得到的一个无监督版本(bge-m3-unsupervised),就是本模型。还有一个微调版本,参考: https://www.datalearner.com/ai-models/pretrained-models/BGE-M3-Embedding
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
