HuggingFace开源语音识别模型Distil-Whisper，基于OpenAI的Whisper-V2模型蒸馏，速度快6倍，参数小49%！

语音识别在实际应用中有非常多的应用。早先，OpenAI发布的Whisper模型是目前语音识别模型中最受关注的一类，也很可能是目前ChatGPT客户端语音识别背后的模型。HuggingFace基于Whisper训练并开源了一个全新的Distil-Whisper，它比Whisper-v2速度快6倍，参数小49%，而实际效果几乎没有区别。

Distil-Whisper的实际测试识别速度大概是每秒的音频需要0.0251秒完成解析，而Whisper-V2需要0.1372秒。这意味着，Distil-Whisper每秒可以处理39.84秒音频左右！

OpenAI的Whisper模型简介

OpenAI的Whisper是一个通用目的的语音识别模型，基于多种语料训练的可以识别多种语言的模型。按照官方的宣传，Whisper在英语语音识别方面的鲁棒性和准确性接近人类水平：

According to OpenAI, Whisper approaches “human-level robustness and accuracy” for English speech recognition.

Dataset	Size / h	Speakers	Domain	Licence
People’s Speech	12,000	unknown	Government, interviews	CC-BY-SA-4.0
GigaSpeech	2,500	unknown	Audiobook, podcast, YouTube	apache-2.0
Common Voice 13	2,400	unknown	Narrated Wikipedia	CC0-1.0
Fisher	1,960	11,900	Telephone conversations	LDC
LibriSpeech	960	2,480	Audiobooks	CC-BY-4.0
VoxPopuli	540	1,310	European Parliament	CC0
TED-LIUM	450	2,030	TED talks	CC-BY-NC-ND 3.0
SwitchBoard	260	540	Telephone conversations	LDC
AMI	100	unknown	Meetings	CC-BY-4.0
Total	21,170	18,260+

HuggingFace开源语音识别模型Distil-Whisper，基于OpenAI的Whisper-V2模型蒸馏，速度快6倍，参数小49%！

OpenAI的Whisper模型简介

DataLearner 官方微信

HuggingFace发布的Distil-Whisper模型

Distil-Whisper的训练细节

Distill-Whisper模型使用的训练数据

利用Whisper生成数据集的伪标签

基于知识蒸馏架构的Distll-Whisper模型

Distil-Whisper效果评估

Distil-Whisper模型的信息卡和开源

热门博客