LPCNET: Improving Neural Speech Synthesis through Linear Prediction
这篇文章主要是提出了一个基于线性预测的高质量声码器
主要贡献:
- 改进了wavernn的训练,更换了特征,使用了线性预测,同时减小模型,更容易训练
- 修正采样的过程,使得8bit的输出也能得到高音质的音频
- 训练中加入噪音,减小训练和生成之间的gap
- 稀疏化,向量化矩阵,对核心代码进行优化,代码开源
总结:
这篇文章开源了代码,而且跑出来的效果真的很不错,力推!