DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客,涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式
按日期排序按浏览量排序
如何评估大模型的Agent能力?τ²-Bench:评估双控对话智能体的新标准

如何评估大模型的Agent能力?τ²-Bench:评估双控对话智能体的新标准

为了解决大模型的Agent操作依赖交互和人工处理这个问题,普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench(Tau-Squared Benchmark),并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。 它是对早期 τ-Bench 的扩展版本,旨在建立一种标准化方法,评估智能体在与用户共同作用于环境时的表现。

2025/10/12 10:03:581,031
#大模型Agent能力评测#大模型评测
最高50万美金!全新高额奖金的AI竞赛——AI预测大赛

最高50万美金!全新高额奖金的AI竞赛——AI预测大赛

预测在全球决策中发挥着关键作用。例如,关于COVID-19扩散的预测为国家封锁提供了信息,而经济预测则影响了利率的制定。这些预测通常依赖于人类专家的仔细判断,他们必须考虑来自各种来源的数据。由于人工智能系统能够处理大量的数据,它们在这个领域有可能非常有用。 为此,ML Safety举办了一个关于AI预测的竞赛,比赛的目的是建立一个机器学习模型,做出准确和校准的预测。

2022/10/12 11:37:361,037
#竞赛
谷歌发布Genie 3:一个可以生成720P开启实时交互式虚拟世界生成新纪元

谷歌发布Genie 3:一个可以生成720P开启实时交互式虚拟世界生成新纪元

谷歌DeepMind发布了一个全新的大模型——Genie 3,这是一个能够根据文本描述生成多样化、可实时交互虚拟世界的通用世界模型。目前,Genie3可以生成几分钟的720P的视频,且每秒24帧左右。用户也可以在生成的视频中实时交互控制。从谷歌官方的视频看,这个Genie 3模型生成的视频和游戏世界的质量很高,非常令人心动!

2025/08/05 23:17:111,041
#Genie3#Google
你的MiniMax M2模型效果为什么不好?可能是用错了,官方建议正确使用Interleaved Thinking,模型效果最多可提升35%的效果

你的MiniMax M2模型效果为什么不好?可能是用错了,官方建议正确使用Interleaved Thinking,模型效果最多可提升35%的效果

MiniMax M2发布2周后已经成为OpenRouter上模型tokens使用最多的模型之一。已经成为另一个DeepSeek现象的大模型了。然而,实际使用中,很多人反馈说模型效果并不好。而此时,官方也下场了,说当前大家使用MiniMax M2效果不好的一个很重要的原因是没有正确使用Interleaved Thinking。正确使用Interleaved thinking模式,可以让MiniMax M2模型的效果最多可以提升35%!本文我们主要简单聊聊这个Interleaved thinking。

2025/11/05 22:34:281,042
#InterleavedThinking#MiniMaxM2
MistralAI发布了Mixtral  8×7B MoE模型的论文,更详细的参数和对比结果~

MistralAI发布了Mixtral 8×7B MoE模型的论文,更详细的参数和对比结果~

在人工智能快速发展的今天,创新型模型如Mixtral 8x7B的出现,不仅推动了技术的进步,还为未来的AI应用开辟了新的可能性。这款基于Sparse Mixture of Experts(SMoE)架构的模型,不仅在技术层面上实现了创新,还在实际应用中展示了卓越的性能。尽管一个月前这个模型就发布,但是MistralAI今天才上传了这个模型的论文,我们可以看到更详细的信息。

2024/01/09 12:39:171,043
#MistralAI#Mixtral
大模型新王者!谷歌发布Gemini 3.0 Pro,各方面评测几乎都是第一,全球首个大模型匿名投票得分超1500分的模型,支持100万输入上下文!

大模型新王者!谷歌发布Gemini 3.0 Pro,各方面评测几乎都是第一,全球首个大模型匿名投票得分超1500分的模型,支持100万输入上下文!

谷歌终于在2025年11月18日发布了新一代Gemini 3模型:Gemini 3.0 Pro。该模型目前在各个评测排行榜中都获得了非常优秀的结果,几乎是领先了所有的模型。而根据此前大家的匿名投票评分和早期测试,该模型的文本生成、编程、SVG生成等方面都非常优秀。谷歌官方强调,Gemini 3.0 Pro不仅在推理能力上达到了新的业界巅峰,更在理解深度、细微差别以及“思考”能力上实现了质的飞跃。

2025/11/19 09:24:471,047
#Gemini#Gemini3Pro
Zhipu AI重磅发布GLM-4.5系列:技术深度解析与多维度性能评测

Zhipu AI重磅发布GLM-4.5系列:技术深度解析与多维度性能评测

7月28日,智谱AI(Zhipu AI)向开源社区投下了一枚重磅炸弹,正式发布了其最新的旗舰模型系列:GLM-4.5。该系列包含两个新成员——GLM-4.5和GLM-4.5-Air,两者均以开源权重形式提供。官方技术报告详细阐述了其设计理念、技术细节以及在多项基准测试中的表现。本次发布的核心目标是打造一个能够统一推理、代码和Agent智能体能力的模型,以应对日益复杂的AI应用需求。本文将深入解析这份官方报告,剖析其核心技术、性能表现,并探讨其在当前大模型竞争格局中的战略定位。

2025/07/29 11:06:251,051
#GLM-4.5系列#MoE架构
OpenAI官方最新研究成果:如何用GPT-4这样的语言模型来解释语言模型中的神经元(neurons)

OpenAI官方最新研究成果:如何用GPT-4这样的语言模型来解释语言模型中的神经元(neurons)

今天,OpenAI官方宣布了一个非常有意思的论文,他们使用GPT-4模型来自动解释GPT-2中每个神经元的含义,试图让语言模型来对语言模型本身的原理进行解释。

2023/05/10 22:30:441,051
#OpenAI#可解释性
阿里通义千问团队首次开源语音合成大模型:Qwen3-TTS:总共5个模型,最小的仅0.6B参数规模,最大1.8B参数

阿里通义千问团队首次开源语音合成大模型:Qwen3-TTS:总共5个模型,最小的仅0.6B参数规模,最大1.8B参数

就在刚刚,阿里开源了全新的语音合成大模型Qwen3-TTS系列!本次开源的语音合成模型共5个版本,最小的仅0.6B参数规模,最大的模型参数也就1.7B,基本上手机端都可以运行。此次发布不仅在性能上宣称超越了许多商业级闭源模型(如 OpenAI 的 GPT-4o-Audio 和 ElevenLabs),更重要的这应该是阿里通义千问团队首次开源语音合成系列大模型。

2026/01/22 22:22:531,052
#Qwen#Qwen3-TTS
大模型多模态评测基准MMMU介绍

大模型多模态评测基准MMMU介绍

大模型多模态评测基准MMMU(大规模多学科多模态理解和推理基准)是一项旨在评估多模态人工智能模型在复杂跨学科任务中综合能力的测试工具。

2025/02/21 20:51:011,054
#MMMU#大模型多模态评测
OpenAI隐藏的一个ChatGPT新功能:在对话框中@任意GPTs,获得回答!一个巨大的由各种GPT组成的聊天世界即将到来

OpenAI隐藏的一个ChatGPT新功能:在对话框中@任意GPTs,获得回答!一个巨大的由各种GPT组成的聊天世界即将到来

在最新的ChatGPT的前端代码中,有网友发现了一个OpenAI隐藏的或者正在测试的功能,即在ChatGPT的对话中可以@ 任意GPTs商店中公开的GPTs,然后由这个GPTs为用户当前的对话进行回复,这个功能不需要用户离开当前对话页面。这意味着在一次对话中,我们可以与几百万个不同的GPTs同时协作聊天,就像一个巨大的聊天群,里面有无数个各种各样的GPT一起为你解决问题。

2024/01/26 20:29:021,055
#ChatGPT#ChatGPT新功能
AIME 2025满分,xAI正式发布Grok模型,其中Grok 4 Heavy评测超越当前所有大模型,美国数学竞赛满分!一年3000美元订阅费!

AIME 2025满分,xAI正式发布Grok模型,其中Grok 4 Heavy评测超越当前所有大模型,美国数学竞赛满分!一年3000美元订阅费!

马斯克旗下的xAI公司正式发布Grok4大模型,包含Grok 4和Grok4 Heavy版本,其中Grok4 Heavy是一个Agent系统,在AIME2025(美国的数学邀请赛)得分满分,超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

2025/07/10 16:15:561,068
#Grok4#Grok4Code
OpenAI发布企业使用的ChatGPT:没有限制且更快的GPT-4、数据隔离、基于GPT-4的高级数据分析功能,但是暂不支持私有化部署

OpenAI发布企业使用的ChatGPT:没有限制且更快的GPT-4、数据隔离、基于GPT-4的高级数据分析功能,但是暂不支持私有化部署

OpenAI发布了ChatGPT的企业版,这是一个专为企业设计的聊天机器人。这个版本不仅提供了企业级的安全和隐私保护,还具有更高的处理速度和更多的自定义选项。相比较个人版的ChatGPT,企业版主要是提升了性能、强调了安全等。

2023/08/29 09:16:091,073
#ChatGPT#OpenAI
重磅!Scikit-learn与Hugging Face强强联手了!

重磅!Scikit-learn与Hugging Face强强联手了!

Hugging Face一直在努力支持深度学习,但是,这只是深度学习的一部分。传统统计机器学习领域里面最重要的工具Scikit-learn如今终于和深度学习的开源标杆工具Hugging Face联手。

2022/10/18 23:36:351,074
#HuggingFace#sklearn
腾讯发布了一个全新的大模型Hunyuan Turbo S:号称评测效果超过GTP-4o和DeepSeek V3等模型,但没有开源或者放开使用

腾讯发布了一个全新的大模型Hunyuan Turbo S:号称评测效果超过GTP-4o和DeepSeek V3等模型,但没有开源或者放开使用

Hunyuan大模型是腾讯训练的大模型品牌名,2022年4月份,某中文语言理解能力排行榜第一名就出现了Hunyuan模型,在2022年11月,Hunyuan大模型就有了1万亿参数的规模,即HunYuan-NLP 1T大模型(比ChatGPT还早发布)。但是最近2年,这个系列的模型几乎没有出现在公众视野上。而昨天(2025年3月10日),Hunyuan官方在X平台上宣布了旗下最新的Hunyuan Turbo S大模型,称其在多个评测基准上超越了GPT-4o的表现。

2025/03/11 22:51:481,075
#HunyuanTurboS#混元大模型
PinchBench:OpenClaw AI 代理真实任务基准测试介绍

PinchBench:OpenClaw AI 代理真实任务基准测试介绍

PinchBench 是 Kilo Code 团队开发的开源基准测试系统,用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务,计算代理的任务完成成功率,同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示,目前包含 50 个模型的 403 次运行记录,最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub(pinchbench/skill 仓库),任何开发者均可本地复现或添加

2026/03/18 17:00:131,080
#ClawBench#PinchBench
Anthropic发布Claude 3.7 Sonnet大模型,全球最强编程模型再次进步。业界第一个既支持标准输出也支持扩展思考推理双重模式的单一大模型,评测结果超DeepSeek R1,低于Grok3-Beta Reasoning,免费用户可用

Anthropic发布Claude 3.7 Sonnet大模型,全球最强编程模型再次进步。业界第一个既支持标准输出也支持扩展思考推理双重模式的单一大模型,评测结果超DeepSeek R1,低于Grok3-Beta Reasoning,免费用户可用

2025年2月25日,Anthropic发布了Claude 3.7 Sonnet大模型,该模型是业界第一个同时支持标准输出和深度推理模式的单一大模型,各项评测相比较Claude Sonnet 3.5大幅提升。特别是代码能力进一步增强。

2025/02/25 14:25:561,082
#Anthropic#Claude3.7
ChatGPT内置隐藏debug功能:支持下载原始对话、可视化对话分支等

ChatGPT内置隐藏debug功能:支持下载原始对话、可视化对话分支等

AIPRM的工作人员最近发现ChatGPT的客户端隐藏内置了一个新的debug特性,可以提高ChatGPT对话的问题调试功能。这个特性包含非常多的功能。同时,最新的截图显示ChatGPT Team版本计划可能延迟但没有取消。

2023/12/06 07:43:391,083
#ChatGPT#ChatGPTTeam计划
Gemini CLI: Google发布的开源AI智能体,将Gemini 2.5 Pro直接带入你的终端,每天可以免费使用1000次Gemini 2.5 Pro!

Gemini CLI: Google发布的开源AI智能体,将Gemini 2.5 Pro直接带入你的终端,每天可以免费使用1000次Gemini 2.5 Pro!

今天,Google为全球开发者社区带来了一款激动人心的新工具——**Gemini CLI**。这是一款免费、开源的AI智能体,它将Google当前最强大的模型Gemini 2.5 Pro的能力,直接集成到了开发者最熟悉的命令行界面(CLI)中。对于那些视终端为“家”的开发者来说,这无疑是一个重大的升级。它不仅擅长编码,更是一个可以处理内容生成、问题解决、深度研究和任务管理的多功能本地实用工具。它的发布,旨在为个人开发者提供前所未有的便捷AI体验,非常强大!

2025/06/26 08:46:371,090
#ClaudeCode#GeminiCLI
彭博社发布金融领域的ChatGPT模型——BloombergGPT

彭博社发布金融领域的ChatGPT模型——BloombergGPT

彭博社今天发布了一份研究论文,详细介绍了BloombergGPT的开发,这是一个新的大规模生成式人工智能(AI)模型。这个大型语言模型(LLM)经过专门的金融数据训练,支持金融业内的多种自然语言处理(NLP)任务。

2023/04/24 22:45:141,098
#BloombergGPT
知名开源框架MetaGPT升级为Atoms:专注解决大模型时代的Vibe Coding产品如何落地,五分钟想好Idea,五分钟生成App,五分钟接入支付,五分钟部署产品

知名开源框架MetaGPT升级为Atoms:专注解决大模型时代的Vibe Coding产品如何落地,五分钟想好Idea,五分钟生成App,五分钟接入支付,五分钟部署产品

2026 年 1 月初,原名 MetaGPT 的 AI 开发框架完成了一次重大升级,将其核心产品 MGX 正式更名为 Atoms。这一消息由 DeepWisdom 团队在 X(原 Twitter)等平台发布,标志着该项目从单纯的“AI 编程助手”正式转向“AI 构建真实生意”的全新定位。

2026/01/25 22:51:181,099
#Atoms#MetaGPT
LLaMA2 7B一样的性能但是由15倍的推理速度!Deci开源DeciLM-6B和DeciLM-6B-Instruct,发布一天上榜HuggingFace Trending

LLaMA2 7B一样的性能但是由15倍的推理速度!Deci开源DeciLM-6B和DeciLM-6B-Instruct,发布一天上榜HuggingFace Trending

随着大型语言模型(LLMs)的不断发展,它们在训练和推理方面的计算需求已经呈指数级增长。这一趋势不仅带来了高昂的成本和能源消耗,还引入了模型部署和可伸缩性方面的障碍。为此,DeciLM开源了2个全新的DeciLM-6B和DeciLM-6B-Instruct大模型,参数比LLaMA2 7B略低,性能相当,但是推理速度却超过LLaMA2 7B的15倍。

2023/09/16 16:50:121,100
#DeciLM-6B#DeciLM-6B-Instruct
常用的SQL语句总结

常用的SQL语句总结

平时很多时候需要用到SQL,一些常见常用的SQL语句总结,后面可以拷贝使用

2022/04/15 23:15:491,103
#SQL#编程
开源可商用大模型再添重磅玩家——StabilityAI发布开源大语言模型StableLM

开源可商用大模型再添重磅玩家——StabilityAI发布开源大语言模型StableLM

今天,Stability宣布开源StableLM计划,这是一个正在开发过程的大语言模型,但是它是开源可商用的模型。本文将对该模型做简单的介绍!

2023/04/24 22:35:451,111
#StabilityAI#StableLM
上一页
1...8910...40
下一页

专题合集

RAG(检索增强生成)Long Context 长上下文AI Agent 实践

最热博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

  • 一个基于Python的机器学习项目——各种Kaggle比赛的解决方案
  • GPT-3最新的能力开放——自动重构和增强你的代码!
  • 7种回归技术
  • 吴恩达再开新课程!如何基于大语言模型实现更强大的语义搜索课程!
  • HuggingFace过去七天最流行的AI模型一览——预训练大模型绝对王者
  • Android开发中常见错误及其解决方法
  • 智谱AI与清华大学联合发布第三代基座大语言模型ChatGLM3:6B版本的ChatGLM3能力大幅增强,依然免费商用授权!
  • MistralAI发布了Mixtral 8×7B MoE模型的论文,更详细的参数和对比结果~