专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

业界 | Facebook开源TTS神经网络VoiceLoop:基于室外声音的语音合成(附PyTor...

机器之心  · 公众号  · AI  · 2017-09-05 11:50

正文

请到「今天看啥」查看全文


说明:X 轴是输出时间(声学样本),Y 轴是输入(文本/音素)。左图是说话者 10,右图是说话者 14


最后,该系统还支持自由文本:


  1. python generate.py  --text "hello world" --spkr 1 --checkpoint models/vctk/bestmodel.pth



安装


需求:Linux/OSX、Python2.7 和 PyTorch 0.1.12。代码当前版本需要 CUDA 支持训练。生成将在 CPU 上完成。


  1. git clone https://github.com/facebookresearch/loop.git

  2. cd loop

  3. pip install -r scripts/requirements.txt



数据


论文中用于训练模型的数据可以通过以下方式下载:


  1. bash scripts/download_data.sh



脚本下载 VCTK 的子集,并进行预处理。该子集包括美国口音的说话者。使用 Merlin 对该数据集进行预处理——使用 WORLD 声码器从每个音频剪辑文件中抽取声码器特征。下载完成后,该数据集将位于子文件夹 data 下,如下所示:


  1. loop

  2. ├── data

  3.    └── vctk

  4.        ├── norm_info

  5.        │   ├── norm.dat

  6.        ├── numpy_feautres

  7.        │   ├── p294_001.npz

  8.        │   ├── p294_002.npz







请到「今天看啥」查看全文