DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Distil-Whisper
DI

Distil-Whisper

多模态大模型

Distil-Whisper

发布时间: 2023-11-01更新于: 2023-11-02 12:07:14.916626
在线体验GitHubHugging FaceCompare
模型参数
15.5亿
上下文长度
2K
中文支持
不支持
推理能力

Distil-Whisper 是由 Hugging Face 发布的 AI 模型,发布时间为 2023-11-01,定位为 多模态大模型,参数规模约为 15.5B,上下文长度为 2K,模型文件大小约 0,采用 MIT License 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Distil-Whisper

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
多模态大模型
发布时间
2023-11-01
模型文件大小
0
MoE架构
否
总参数 / 激活参数
15.5 亿 / 不涉及
知识截止
暂无数据
Distil-Whisper

开源和体验地址

代码开源状态
MIT License
预训练权重开源
MIT License- 免费商用授权
GitHub 源码
https://github.com/huggingface/distil-whisper
Hugging Face
https://huggingface.co/distil-whisper/distil-large-v2
在线体验
暂无在线体验地址
Distil-Whisper

官方介绍与博客

官方论文
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
DataLearnerAI博客
暂无介绍博客
Distil-Whisper

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
Distil-Whisper

评测结果

当前尚无可展示的评测数据。
Distil-Whisper

发布机构

Hugging Face
Hugging Face
查看发布机构详情
Distil-Whisper

模型解读


语音识别在实际应用中有非常多的应用。早先,OpenAI发布的Whisper模型是目前语音识别模型中最受关注的一类,也很可能是目前ChatGPT客户端语音识别背后的模型。HuggingFace基于Whisper训练并开源了一个全新的Distil-Whisper,它比Whisper-v2速度快6倍,参数小49%,而实际效果几乎没有区别。

OpenAI的Whisper模型简介

OpenAI的Whisper是一个通用目的的语音识别模型,基于多种语料训练的可以识别多种语言的模型。按照官方的宣传,Whisper在英语语音识别方面的鲁棒性和准确性接近人类水平:

According to OpenAI, Whisper approaches “human-level robustness and accuracy” for English speech recognition.

Whisper模型引起这么多的关注主要包括如下原因:

  1. 在不同背景噪音、口音等方面Whisper都有较好的鲁棒性;
  2. 一个模型可以识别多种语言;
  3. 基于68万小时的多语言数据集训练;

此外,Whisper是OpenAI最近几年较少的开源模型,2022年9月首次发布,包含不同的版本。在2022年12月发布了V2版本。其中最大的模型约15.5亿参数。这些具体的Whisper模型版本参考:

Whisper模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/Whisper
Whisper V2模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/Whisper-V2

不过,Whisper模型的速度一般,根据测试,原始的Whisper-V2模型在NVIDIA V100S上,对13分钟的语音识别的转换时间要4分钟30秒。

此次,HuggingFace发布的Distil-Whisper模型速度上比原始的Whisper-V2快6倍!

HuggingFace发布的Distil-Whisper模型

Distil-Whisper模型是才发布的,HuggingFace官方说会在2023年11月2日开源。

Distil-Whisper是一个通过伪标签(Pseudo-Label)技术和知识蒸馏(Knowledge Distillation)方法从原始的 Whisper 模型中蒸馏得到的语音识别模型。目的是在不损失太多性能的情况下,创建一个更小、更快的模型,能够在低延迟或资源受限的环境中运行。

为此,HuggingFace首先使用 Whisper 模型为大量未标记数据生成伪标签,然后利用这些伪标签数据和知识蒸馏技术来训练 Distil-Whisper。

当然,以下是关于这篇论文提出的模型的总结,以及按照宣传方式提炼的几个吸引人的特点。

模型总结:

这篇论文提出了 Distil-Whisper,这是一个通过伪标签技术和知识蒸馏方法从原始的 Whisper 模型中蒸馏得到的语音识别模型。目的是在不损失太多性能的情况下,创建一个更小、更快的模型,能够在低延迟或资源受限的环境中运行。为此,作者首先使用 Whisper 模型为大量未标记数据生成伪标签,然后利用这些伪标签数据和知识蒸馏技术来训练 Distil-Whisper。

具体来说,Distil-Whisper模型包含如下几个特点:

  1. 高效且轻量:Distil-Whisper 是原始 Whisper 模型的轻量级版本,具有 51% 更少的参数,但在性能上与原始模型相当。
  2. 大规模伪标签训练:通过利用大量未标记数据的伪标签,模型实现了大规模的训练,从而提高了其鲁棒性和性能。
  3. 保持鲁棒性:尽管模型经过蒸馏和减小,但它仍然保持了对复杂声学条件的鲁棒性,这在原始 Whisper 模型中是一个重要的特点。
  4. 快速推理:Distil-Whisper 比原始模型快 5.8 倍,使其非常适合需要快速响应的应用。
  5. 质量控制:采用了基于词错误率的启发式方法,确保只使用最高质量的伪标签进行训练,从而保证了模型的高质量输出。

以上就是 Distil-Whisper 模型的主要特点。这些特点使其在语音识别领域中具有很高的竞争力,尤其是在需要轻量级、高性能模型的场景中。

Distil-Whisper的训练细节

Distil-Whisper模型的方案和训练细节主要包含2个方面,一个是利用新的数据集,基于Whisper模型生成伪标签,用于后续训练;第二个是提出了基于Whisper的知识蒸馏模型方案,用以训练Distil-Whisper模型。

Distill-Whisper模型使用的训练数据

为了训练Distill-Whisper模型,HuggingFace收集了9个公开语音数据集,包含18260个演讲者的10个领域的21170个小时的语音数据集。总结如下:

DatasetSize / hSpeakersDomainLicence
People’s Speech12,000unknownGovernment, interviewsCC-BY-SA-4.0
GigaSpeech2,500unknownAudiobook, podcast, YouTubeapache-2.0
Common Voice 132,400unknownNarrated WikipediaCC0-1.0
Fisher1,96011,900Telephone conversationsLDC
LibriSpeech9602,480AudiobooksCC-BY-4.0
VoxPopuli5401,310European ParliamentCC0
TED-LIUM4502,030TED talksCC-BY-NC-ND 3.0
SwitchBoard260540Telephone conversationsLDC
AMI100unknownMeetingsCC-BY-4.0
Total21,17018,260+
利用Whisper生成数据集的伪标签

上述数据集量很大,且大多数无标签的数据集,为了得到蒸馏后的Whisper模型,HuggingFace使用了原始的Whisper模型来对这些数据集进行标注。

基于知识蒸馏架构的Distll-Whisper模型

Distil-Whisper模型的架构图如下:

如上图所示,作者保留了原始的Whisper模型的encoder部分,在decoder部分保留了第一层和最后一层,然后中间层全部放弃,重新训练。进行知识蒸馏的训练。

Distil-Whisper效果评估

最终,Distil-Whisper测试结果很好,主要总结如下:

  1. 蒸馏后的模型 Distil-Whisper 比原始 Whisper 模型快 5.8 倍,参数减少了 51%。
  2. 在零次转移设置的分布外测试数据上,Distil-Whisper 的 WER 与原始 Whisper 模型相差不到 1%。
  3. Distil-Whisper 保持了 Whisper 模型对困难声学条件的鲁棒性。


原文来自: https://www.datalearner.com/blog/1051698897550736 

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码