用openai开源的whisper部署自己的语音识别系统
Openai开源了自己的语音识别项目whisper,可将视频和语音文件转为文字,个人认为效果可以比肩科大讯飞的收费产品,并且无需GPU,普通配置就可以运行。
这是whisper项目的github:https://github.com/openai/whisper
但是我们今天不按照官方的文档部署,而使用这个项目https://github.com/ahmetoner/whisper-asr-webservice,这个项目在whisper基础上提供了web界面,并且可以用docker部署,非常方便。
话不多说,开始实战,下面操作基于windows系统。
一、下载镜像
Docker搜索openai-whisper-asr-webservice,选择第一个pull。
二、启动
docker run -d -p 9000:9000 -e ASR_MODEL=base onerahmet/openai-whisper-asr-webservice:latest
ASR_MODEL环境变量可以修改更好的模型参考以下配置

运行之后在浏览器输入以下地址
http://localhost:9000/
第一次访问会下载模型,所以需要稍等一会,之后可以看到以下页面,到这一步已经部署成功,是不是非常简单!
三、使用
这个项目提供了2个http接口:
1./asr:语音识别接口,上传语音或者视频文件,输出文字。
2./detect-language:语言检测接口,上传语音或者视频文件,输出语言。
先试一下语音识别,点击”Try it out”按钮,填写参数,上传语音或视频文件,点击Execute就可以转换了。
3.1 英文音频转文字
先用一个英文mp3音频看看识别效果,可以先照抄我截图中的参数,后面会写每个参数的意思。需要音频文件的可以在这里下载:https://pan.baidu.com/s/1NSeuM1vYYYf5hHIRY_TB4w?pwd=9hkc

稍等一会即可转换完成,在response body中可看到转换结果。