Thinking and Sharing

  • Home

  • Resume

  • Tags

  • Archives

  • Search

ICASSP2019 TTS Summary(Oral)

Posted on 2019-05-15 | Edited on 2019-05-30 | Comments:
Symbols count in article: 2k | Reading time ≈ 2 mins.
LPCNET: Improving Neural Speech Synthesis through Linear Prediction

paper code

这篇文章主要是提出了一个基于线性预测的高质量声码器

主要贡献:

  • 改进了wavernn的训练,更换了特征,使用了线性预测,同时减小模型,更容易训练
  • 修正采样的过程,使得8bit的输出也能得到高音质的音频
  • 训练中加入噪音,减小训练和生成之间的gap
  • 稀疏化,向量化矩阵,对核心代码进行优化,代码开源

总结:
这篇文章开源了代码,而且跑出来的效果真的很不错,力推!

Read more »

LPCNET Improving Neural Speech Synthesis Through Linear Prediction

Posted on 2019-05-14 | Edited on 2019-05-15 | Comments:
Symbols count in article: 2.3k | Reading time ≈ 2 mins.

paper code

简介

文章是基于18年2月份的WaveRNN来改进, 不同的是LPCNET是用来作为vocoder的,同时在相同的网络结构下能够得到更好的音质,每秒能进行30亿次的浮点数运算,能够支持在比较差的设备,手机等等上运行。实际上也是进行指令级的优化。

文章给了代码,从代码中其实能够学到很多:)。

Read more »

Sample-Efficient-Adaptive-Text-to-Speech

Posted on 2019-02-23 | Comments:
Symbols count in article: 1.5k | Reading time ≈ 1 mins.

paper

文章主要是使用元学习的方法来做少量数据下的自适应tts。

训练:

  1. 输入是hts的文本特征和f0,经过上采样层作为wavenet的local condition。
  2. 使用多说话人的数据集来自适应说话人,因此会学习到一个说话人的embedding,这个embedding作为wavenet的global condition

三种自适应的策略:

  1. 在保持wavenet权重不变的情况下学习speaker embedding
  2. 用SGD fine-tuning整个模型
  3. 用训练好的speaker encoder来预测speaker embedding
Read more »
Kuan Chen

Kuan Chen

Simple Coding

3 posts
6 tags
GitHub E-Mail
0%
© 2018 – 2019 Kuan Chen | 6k | 5 mins.
Powered by Hexo v3.8.0
|
Theme – NexT.Mist v7.0.0