DeepSeek V4没有等到,但是DeepSeekAI把DeepSeek V3升级到DeepSeek V3.1了,小幅更新,但核心架构和参数不变
就在几个小时前,DeepSeekAI宣布官方的聊天模型从DeepSeek-V3升级到了DeepSeek-V3.1,上下文拓展至128K。虽然,官方目前没有给出这个模型的详细信息,DataLearnerAI已经搜集到很多信息供大家参考。

这里说的支持128K应该是官网的聊天版本,模型本身此前的版本也是支持128K的。另外,官网DeepSeek-V3.1给出的解释是3.1版本的知识截止到2024年8月,而DeepSeek-V3是截止到2024年7月份。
DeepSeek-V3.1很可能是支持推理和非推理混合模式的模型
此外,DeepSeekAI也在HuggingFace上上传了DeepSeek-V3.1-Base版本模型。从模型结构上来看,这个版本模型和3月24日发布的DeepSeek-V3-0324并无区别。主要是增加了4个不同的特殊tokens:
<|search_begin|>(id:128796)
<|search_end|>(id:128797)
<think>(id:128798)
</think>(id:129899)
这意味着这个版本的模型可能是一个类似Qwen3的混合架构模型,即同时支持非推理模式和推理模式。推特以及其它网络平台也出现了DeepSeek V3.1出现推理过程的截图。因此,这部分应该是没错的。


