用openai开源的whisper部署自己的语音识别系统

Openai开源了自己的语音识别项目whisper，可将视频和语音文件转为文字，个人认为效果可以比肩科大讯飞的收费产品，并且无需GPU，普通配置就可以运行。

这是whisper项目的github：https://github.com/openai/whisper

但是我们今天不按照官方的文档部署，而使用这个项目https://github.com/ahmetoner/whisper-asr-webservice，这个项目在whisper基础上提供了web界面，并且可以用docker部署，非常方便。

话不多说，开始实战，下面操作基于windows系统。

一、下载镜像

Docker搜索openai-whisper-asr-webservice，选择第一个pull。

docker run -d -p 9000:9000 -e ASR_MODEL=base onerahmet/openai-whisper-asr-webservice:latest

ASR_MODEL环境变量可以修改更好的模型参考以下配置

运行之后在浏览器输入以下地址

http://localhost:9000/

第一次访问会下载模型，所以需要稍等一会，之后可以看到以下页面，到这一步已经部署成功，是不是非常简单！

这个项目提供了2个http接口：

1./asr：语音识别接口，上传语音或者视频文件，输出文字。

2./detect-language：语言检测接口，上传语音或者视频文件，输出语言。

先试一下语音识别，点击”Try it out”按钮，填写参数，上传语音或视频文件，点击Execute就可以转换了。

先用一个英文mp3音频看看识别效果，可以先照抄我截图中的参数，后面会写每个参数的意思。需要音频文件的可以在这里下载：https://pan.baidu.com/s/1NSeuM1vYYYf5hHIRY_TB4w?pwd=9hkc

稍等一会即可转换完成，在response body中可看到转换结果。

Post Views: 156