HuggingFace开源语音识别模型Distil-Whisper,基于OpenAI的Whisper-V2模型蒸馏,速度快6倍,参数小49%!
语音识别在实际应用中有非常多的应用。早先,OpenAI发布的Whisper模型是目前语音识别模型中最受关注的一类,也很可能是目前ChatGPT客户端语音识别背后的模型。HuggingFace基于Whisper训练并开源了一个全新的Distil-Whisper,它比Whisper-v2速度快6倍,参数小49%,而实际效果几乎没有区别。
Distil-Whisper的实际测试识别速度大概是每秒的音频需要0.0251秒完成解析,而Whisper-V2需要0.1372秒。这意味着,Distil-Whisper每秒可以处理39.84秒音频左右!
OpenAI的Whisper模型简介
OpenAI的Whisper是一个通用目的的语音识别模型,基于多种语料训练的可以识别多种语言的模型。按照官方的宣传,Whisper在英语语音识别方面的鲁棒性和准确性接近人类水平:
According to OpenAI, Whisper approaches “human-level robustness and accuracy” for English speech recognition.

