DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客,涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式
按日期排序按浏览量排序
推荐一个国内可以按分钟计费的4090显卡租用公有云,一个小时24GB显存的4090只需要2.37元——仙宫云

推荐一个国内可以按分钟计费的4090显卡租用公有云,一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快,对于需要学习部署使用大模型的人来说,显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云,可以按分钟租用24GB显存的4090显卡公有云实例,非常具有吸引力~

2025/03/05 12:35:376,508
#4090显卡#仙宫云
一文看懂如何初始化神经网络

一文看懂如何初始化神经网络

深度学习的初始化非常重要,这篇博客主要描述两种初始化方法:一个是Kaiming初始化,一个是LSUV方法。文中对比了不同初始化的效果,并将每一种初始化得到的激活函数的输出都展示出来以查看每种初始化对层的输出的影响。当然,作者最后也发现如果使用了BatchNorm的话,不同的初始化方法结果差不多。说明使用BN可以使得初始化不那么敏感了。

2019/06/21 17:20:496,605
#深度学习#神经网络
智谱AI发布国产最强大模型GLM4,理解评测与数学能力仅次于Gemini Ultra和GPT-4,编程能力超过Gemini-pro,还有对标GPTs商店的GLMs

智谱AI发布国产最强大模型GLM4,理解评测与数学能力仅次于Gemini Ultra和GPT-4,编程能力超过Gemini-pro,还有对标GPTs商店的GLMs

GLM4是智谱AI发布的第四代基座大语言模型,全称General Language Model,最早由清华大学KEG小组再2021年发布。这个基座模型也是著名的开源国产大模型ChatGLM系列的基座模型。本次发布的第四代GLM4的能力相比此前的基座模型提升了60%,已经与世界最强模型Gemini Ultra和GPT-4接近!

2024/01/17 22:27:216,655
#ChatGLM#GLM4
重磅!第二代ChatGLM发布!清华大学THUDM发布ChatGLM2-6B:更快更准,更低成本更长输入!

重磅!第二代ChatGLM发布!清华大学THUDM发布ChatGLM2-6B:更快更准,更低成本更长输入!

ChatGLM-6B是国产开源大模型领域最强大的的大语言模型。因其优秀的效果和较低的资源占用在国内引起了很多的关注。2023年6月25日,清华大学KEG和数据挖掘小组(THUDM)发布了第二代ChatGLM2-6B。

2023/06/25 22:45:146,695
#ChatGLM-6B#ChatGLM2-6B
当前业界最优秀的8个编程大模型简介:从最早的DeepMind的AlphaCode到最新的StarCoder全解析~

当前业界最优秀的8个编程大模型简介:从最早的DeepMind的AlphaCode到最新的StarCoder全解析~

大语言模型中一个非常重要的内容就是关于代码的支持。通常,基于代码数据训练的模型不仅在代码补全方面有着更好地支持,也可能是大语言模型逻辑能力的部分来源。本文将总结目前业界专门针对代码补全(生成)方面而做的8个大模型。

2023/05/07 23:47:246,707
#编程#编程大模型
如何抽取样本方差的分布

如何抽取样本方差的分布

抽取样本方差的分布可以帮助我们生成很多其他分布的样本,例如生成一元高斯分布的样本就是可以通过方差分布来产生。这篇博客将描述如何抽取样本方差的分布。

2017/10/20 15:43:116,752
#抽样#数学
Indian Buffet Process(印度自助餐过程)介绍

Indian Buffet Process(印度自助餐过程)介绍

非参贝叶斯

2017/11/15 08:38:586,755
#非参贝叶斯
Ubuntu 命令行 指定GPU 运行 Python 程序

Ubuntu 命令行 指定GPU 运行 Python 程序

2018/12/19 10:59:446,766
#GPU#linux
对偶规划问题

对偶规划问题

对偶问题(Dual Problem)是运筹学中一个很重要的概念,是基于原问题的约束条件和目标函数为基础构造而来。每一个线性规划的问题都存在一个与之对应的对偶问题。对偶问题在求解最优化问题时很有用。

2019/02/28 15:02:596,788
#广告分配#线性规划
贝叶斯统计中的计算方法简介

贝叶斯统计中的计算方法简介

仿真抽样是给予贝叶斯方法第二春的重要角色。由于很多时候实际问题很复杂,我们无法精确求出后验密度,使用仿真抽样的方法我们可以获得近似的结果。这篇博客主要介绍了几种仿真抽样的方法。

2016-12-28 20:05:216,874
#MCMC#仿真
多项式分布的贝叶斯推断

多项式分布的贝叶斯推断

多项式分布是非常常见的分布,他是二项分布在多维上的推广。例如掷骰子结果中,1-6点出现的次数就是一个多项式分布。多项式分布在如主题建模中非常常见,本文将讲述多项式分布的贝叶斯推导过程。

2017/12/01 22:28:466,900
#分布#多项式分布
最流行的用于预测的机器学习算法简介及其优缺点说明

最流行的用于预测的机器学习算法简介及其优缺点说明

预测问题一直是机器学习领域最重要的问题之一。很多算法包括回归、决策树等都是用来解决预测的常用算法。预测问题的核心是基于已有的有标签的数据来判断新数据的标签。一般来说,根据预测标签是离散的还是连续的可以分成分类问题和回归问题。注意,本篇博客主要是快速回顾描述各个模型的优缺点,因此不会对模型有很深的介绍。

2021/10/26 23:03:036,906
#机器学习#预测问题
Claude开始转向收费模式!推出Claude Pro,定价20美元一个月解锁PDF理解最强大模型的能力~

Claude开始转向收费模式!推出Claude Pro,定价20美元一个月解锁PDF理解最强大模型的能力~

Anthropic公司宣布,其开发的智能助手Claude推出收费订阅服务,命名为Claude Pro,定价20美元一个月(或者18英镑)。免费用户依然可以使用,但是有发送频率限制。本篇博客将解释一下ClaudeAI的Claude服务是否收费以及收费之后的ClaudePro提供的服务等。

2023/09/08 10:07:586,939
#ClaudeAI#ClaudePro
Dask调度器简介

Dask调度器简介

Dask支持多种调度器,从单线程、多线程、多进程到本地分布式和集群分布式,各种调度器在不同情况下有不同的作用,本文来源于Dask官方文档的翻译,主要向大家介绍这五种调度器的使用情景和方式。最后提供了如何在不同情境下设置Dask调度器的方法。

2020/05/24 18:34:067,041
#Dask#Python
python中configparser读取配置文件的大小写和重复项问题

python中configparser读取配置文件的大小写和重复项问题

使用配置文件控制程序的运行是一种非常常见的编程技巧,因此配置文件的解析是所有编程语言中都不可缺少的模块。在Python中,通常使用configparser模块进行配置文件解析。但是configparser解析配置文件有几个常见问题:读取当前项目下某个位置的配置文件、重复配置项的处理以及大小写配置项的读取。本文将描述如何解决这三个问题。

2021/06/14 11:23:217,065
#python#编程
XLNet基本思想简介以及为什么它优于BERT

XLNet基本思想简介以及为什么它优于BERT

前几天刚刚发布的XLNet彻底火了,原因是它在20多项任务中超越了BERT。这是一个非常让人惊讶的结果。之前我们也说过,在斯坦福问答系统中,XLNet也取得了目前单模型第一的成绩(总排名第四,前三个模型都是集成模型)。

2022/05/12 22:52:337,095
#深度学习#论文快讯
SCI已经被SCIE替代

SCI已经被SCIE替代

2020年1月13日,Clarivate官网发布声明称SCI索引将被去除。未来全部使用SCIE代替期刊索引。

2022/04/18 19:33:447,112
#学术#学术期刊
Java爬虫入门简介(四)——HttpClient保存使用Cookie登录

Java爬虫入门简介(四)——HttpClient保存使用Cookie登录

在使用HttpClient作为客户端请求数据的时候,我们常常需要以一个用户的身份多次请求一个网站内的多种资源。例如,我一次登录后,后面希望以这个身份继续访问不用重新登录。这里就可以使用cookie了。

2017/11/08 11:16:097,129
#Cookie#HttpClient
Java爬虫入门简介(一) —— HttpClient请求

Java爬虫入门简介(一) —— HttpClient请求

使用爬虫获取数据对科研来说及其重要,本系列博客将讲述如何使用Java编写爬虫工具获取网页数据。包括HttpClient 4.3及以上版本的Header设置,请求参数设置等。

2017/11/08 15:24:567,153
#HttpClient#Java
【转载】变分贝叶斯算法理解与推导

【转载】变分贝叶斯算法理解与推导

变分贝叶斯是一类用于贝叶斯估计和机器学习领域中近似计算复杂(intractable)积分的技术。它主要应用于复杂的统计模型中,这种模型一般包括三类变量:观测变量(observed variables, data),未知参数(parameters)和潜变量(latent variables)。

2017/11/04 09:34:537,162
#变分推断#统计
深度学习技巧之Padding

深度学习技巧之Padding

卷积神经网络是深度学习中处理图像的利器。在卷积神经网络中,Padding是一种非常常见的操作。本片博客将简要介绍Padding的原理。

2019/02/20 15:22:487,174
#卷积神经网络#深度学习
Copilot Labs插件——基于AI的代码解释和代码翻译神器

Copilot Labs插件——基于AI的代码解释和代码翻译神器

昨天,Copilot团队推出了一个名为GitHub Copilot Labs的VS Code配套扩展。它独立于(并依赖于)GitHub Copilot扩展。它可以用来解释代码和翻译代码。

2022/04/01 09:39:037,194
#copilot#GitHub
给初学者的深度学习简介

给初学者的深度学习简介

深度学习是计算机领域中目前非常火的话题,不仅在学术界有很多论文,在业界也有很多实际运用。本篇博客主要介绍了三种基本的深度学习的架构,并对深度学习的原理作了简单的描述。本篇文章翻译自Medium上一篇入门介绍。

2017/10/16 17:05:577,214
#深度学习#神经网络
word2vec的使用参数解释和应用场景

word2vec的使用参数解释和应用场景

word2vec的各种程序运行方法

2017/05/10 22:13:527,289
#word2vec
上一页
1...343536...40
下一页

专题合集

RAG(检索增强生成)Long Context 长上下文AI Agent 实践

最热博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

  • 马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!
  • Claude Code 的独特体验:Claude Code 为什么这么好用?从设计细节看下一代 LLM Agent 的范式
  • 智谱AI发布第二代CodeGeeX编程大模型:CodeGeeX2-6B,最低6GB显存可运行,基于ChatGLM2-6B微调
  • CNN经典算法之Inception V1(GoogLeNet)
  • AIME 2026:基于2026年美国数学邀请赛的大模型数学能力评估基准
  • 隐马尔科夫模型及其在NLP中的应用指南
  • OpenAI最新的推理大模型o1与GPT-4o有什么区别?o1一定比o1 mini更强吗?一文总结OpenAI对o1模型的官方答疑
  • Dask调度器简介