业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTor...

机器之心 · 公众号 · AI · 2017-09-05 11:50

正文

请到「今天看啥」查看全文

说明：X 轴是输出时间（声学样本），Y 轴是输入（文本／音素）。左图是说话者 10，右图是说话者 14

最后，该系统还支持自由文本：

python generate.py  --text "hello world" --spkr 1 --checkpoint models/vctk/bestmodel.pth

安装

需求：Linux/OSX、Python2.7 和 PyTorch 0.1.12。代码当前版本需要 CUDA 支持训练。生成将在 CPU 上完成。

git clone https://github.com/facebookresearch/loop.git
cd loop
pip install -r scripts/requirements.txt

数据

论文中用于训练模型的数据可以通过以下方式下载：

bash scripts/download_data.sh

脚本下载 VCTK 的子集，并进行预处理。该子集包括美国口音的说话者。使用 Merlin 对该数据集进行预处理——使用 WORLD 声码器从每个音频剪辑文件中抽取声码器特征。下载完成后，该数据集将位于子文件夹 data 下，如下所示：

loop
├── data
    └── vctk
        ├── norm_info
        │   ├── norm.dat
        ├── numpy_feautres
        │   ├── p294_001.npz
        │   ├── p294_002.npz

请到「今天看啥」查看全文

推荐文章

FM93交通之声 · 19岁少女在公交车上莫名倒地，9天后被宣布脑死亡！身体的这几个危险信号，千万要注意

8 年前

东方历史评论 · 周六荐书｜这一步，彻底改变了一个国家的方向

8 年前

Someet · 北京 | 能带你玩经济学实验的除了常青藤也只有我们了

8 年前

体育产业生态圈 · 丁彦雨航获小牛双向合同邀约！我们与他聊了聊NBA的目标与梦想 | 独家

7 年前

潮音乐 · 今天，向中国军人致敬！

7 年前