AI

用openai开源的whisper部署自己的语音识别系统

Openai开源了自己的语音识别项目whisper,可将视频和语音文件转为文字,个人认为效果可以比肩科大讯飞的收费产品,并且无需GPU,普通配置就可以运行。

这是whisper项目的github:https://github.com/openai/whisper

但是我们今天不按照官方的文档部署,而使用这个项目https://github.com/ahmetoner/whisper-asr-webservice,这个项目在whisper基础上提供了web界面,并且可以用docker部署,非常方便。

话不多说,开始实战,下面操作基于windows系统。

一、下载镜像

Docker搜索openai-whisper-asr-webservice,选择第一个pull。

二、启动

docker run -d -p 9000:9000 -e ASR_MODEL=base onerahmet/openai-whisper-asr-webservice:latest

ASR_MODEL环境变量可以修改更好的模型参考以下配置

运行之后在浏览器输入以下地址

http://localhost:9000/

第一次访问会下载模型,所以需要稍等一会,之后可以看到以下页面,到这一步已经部署成功,是不是非常简单!

三、使用

这个项目提供了2个http接口:

1./asr:语音识别接口,上传语音或者视频文件,输出文字。

2./detect-language:语言检测接口,上传语音或者视频文件,输出语言。

先试一下语音识别,点击”Try it out”按钮,填写参数,上传语音或视频文件,点击Execute就可以转换了。

3.1 英文音频转文字

先用一个英文mp3音频看看识别效果,可以先照抄我截图中的参数,后面会写每个参数的意思。需要音频文件的可以在这里下载:https://pan.baidu.com/s/1NSeuM1vYYYf5hHIRY_TB4w?pwd=9hkc

稍等一会即可转换完成,在response body中可看到转换结果。

AI相关的一切

留言

您的邮箱地址不会被公开。 必填项已用 * 标注