OpenAI Whisper

Whisper

OpenAI开发的开源语音识别模型，支持99种语言的语音转文字，识别准确率极高，可本地部署保障数据隐私，被广泛应用于字幕生成和会议记录。

OpenAI's open-source speech recognition model supporting 99 languages for speech-to-text with high accuracy, deployable locally for privacy.

语音转文字开源多语言识别

免费多语言

收录时间：2026-04-21

最后验证：2026-04-21

https://github.com/openai/whisper

功能特点

多语言识别：支持99种语言的语音转文字，涵盖英语、中文、日语、阿拉伯语等主流及小语种，且在同一音频中能自动检测语言并处理混合语音场景
多尺寸模型选择：提供从tiny到large共5种模型规格，用户可根据设备性能与精度需求灵活选择，tiny模型在CPU上也能流畅运行，large模型则达到当前开源语音识别的最高准确率
本地离线部署：完全在本地运行，无需网络连接也不上传任何数据，从根本上保障企业机密和个人隐私不泄露
多格式音频支持：兼容MP3、WAV、M4A、FLAC、WEBM等常见音频及视频文件格式，无需额外转换即可直接处理
时间戳生成：可输出字词级或句段级精确时间戳，方便快速定位音频位置，是实现精确字幕生成与视频对齐的核心能力
自动语言检测：智能识别输入音频的语言类型，无需手动指定即可开始转写，提升批处理场景下的工作效率
抗噪鲁棒性：在嘈杂环境、多人说话等复杂场景下仍能保持较高识别准确率，适应真实世界的录音条件
Python API集成：提供简洁的Python接口，开发者仅需数行代码即可将语音识别能力嵌入到自动化工作流、数据分析管道或第三方应用中
多输出格式：支持输出纯文本、带时间戳的SRT/VTT字幕、JSON格式的详细识别结果等多种格式，满足不同下游任务需求

通过 pip install openai-whisper 安装Whisper，同时需安装ffmpeg以处理音频文件
在命令行中直接运行 whisper audio.mp3 即可使用默认medium模型开始转写
通过 --model 参数指定模型大小，如 whisper audio.mp3 --model large 以获得最佳精度
使用 --language 参数可指定源语言，加速识别过程，例如 --language zh 用于中文转写
添加 --task translate 参数可将任意语言语音直接翻译并输出为英文文本
在Python中调用 whisper.load_model("base").transcribe("audio.mp3") 即可将识别结果集成到自定义应用中

Q: Whisper对硬件有什么要求？ A: tiny和base模型可在普通CPU上实时运行；large模型建议使用配备8GB以上显存的NVIDIA GPU以获得可接受的处理速度，Apple Silicon Mac得益于Metal加速也有较好表现
Q: 使用Whisper需要联网吗？ A: 不需要。模型加载后所有识别过程完全在本地完成，语音数据不会发送到任何外部服务器，确保数据隐私安全
Q: 为什么转写结果中出现重复或乱码？ A: 这通常发生在长段无声或纯噪音区域，可尝试使用 --condition_on_previous_text False 参数抑制模型对前文的过度依赖，或预先对音频进行裁剪和降噪处理
Q: Whisper与商业API版本有什么区别？ A: 开源Whisper可完全本地部署、自由定制和二次开发，但需自行承担算力成本；OpenAI提供的付费Whisper API则免去运维负担，提供更快的响应速度，但数据需上传至云端