0. 研究目的
最近有公司找到我,咨询我有没有好用的开源TTS
,并且要求速度要极快,要求支持流式,主要用于对接智能呼叫中心系统。
TTS
就犹如呼叫中心系统的嘴巴,如果响应时间慢了,就会遭到用户的嫌弃。于是有了在网上搜索到了开源的一款TTS
,该TTS
由于是基于MIT
协议开源的,允许开发者自由使用、复制、修改、合并、发布和分发软件,包括用于商业目的。
商用的TTS
虽然方便,但是要支付昂贵的费用,因此此研究,用于市面上开源的TTS
代替商用的TTS
,从而达到节省公司开支的目的。
1. 部署教程
下载源码并安装:
git clone https://github.com/myshell-ai/MeloTTS.git
cd MeloTTS
pip install -e .
python -m unidic download
运行:这里运行 web 端为例
python melo/app.py
然后你就会发现一直在下载各种文件
下载的文件会保存到下面目录中
{home}/.cache/hugginface/hub/
然后在控制台中复制访问地址
http://127.0.0.1:7860
现在就可以访问到页面了,但是当你执行合成的时候会看到下面的报错信息
Resource averaged_perceptron_tagger_eng not found.
Please use the NLTK Downloader to obtain the resource:
>>> import nltk
>>> nltk.download('averaged_perceptron_tagger_eng')
于是你可以执行下面命令讲解这个报错
python
import nltk
nltk.download('averaged_perceptron_tagger_eng')
下载的文件会保存到
C:\\Users\\username\\AppData\\Roaming\\nltk_data
现在可以正常运行了,点击合成,然后第一次使用的时候会自动从网络上下载pytorch_model.bin
文件
那么到这里,我就搭建好了。
2. 参考文档
[1] 官方安装文档
Q.E.D.