0. 研究目的

最近有公司找到我,咨询我有没有好用的开源TTS,并且要求速度要极快,要求支持流式,主要用于对接智能呼叫中心系统。

TTS就犹如呼叫中心系统的嘴巴,如果响应时间慢了,就会遭到用户的嫌弃。于是有了在网上搜索到了开源的一款TTS,该TTS由于是基于MIT协议开源的,允许开发者自由使用、复制、修改、合并、发布和分发软件,包括用于商业目的。

商用的TTS虽然方便,但是要支付昂贵的费用,因此此研究,用于市面上开源的TTS代替商用的TTS,从而达到节省公司开支的目的。

1. 部署教程

下载源码并安装:

git clone https://github.com/myshell-ai/MeloTTS.git
cd MeloTTS
pip install -e .
python -m unidic download

运行:这里运行 web 端为例

python melo/app.py

然后你就会发现一直在下载各种文件

下载的文件会保存到下面目录中

{home}/.cache/hugginface/hub/
image-20241110185630793

然后在控制台中复制访问地址

http://127.0.0.1:7860

现在就可以访问到页面了,但是当你执行合成的时候会看到下面的报错信息

Resource averaged_perceptron_tagger_eng not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('averaged_perceptron_tagger_eng')

于是你可以执行下面命令讲解这个报错

python
import nltk
nltk.download('averaged_perceptron_tagger_eng')

下载的文件会保存到

C:\\Users\\username\\AppData\\Roaming\\nltk_data

现在可以正常运行了,点击合成,然后第一次使用的时候会自动从网络上下载pytorch_model.bin文件

image-20241110190224997

那么到这里,我就搭建好了。

2. 参考文档

[1] 官方安装文档

Q.E.D.


热爱生活,热爱程序