其他
“国检”结果来啦!火山引擎语音合成如何做到眼前一亮?
前端文本分析:主要负责可懂度,比如文本正则化(例如将数字转成年份读、号码读等)、字音转换(例如中文注音,尤其是解决多音字问题)以及分词和韵律预测等。目前主要依托多任务模型及神经网络正则化,可做到同时支持12种主流小语种,效果显著。
声学模型:主要负责语言学特征到声学特征的建模。数据显示,火山引擎TTS的后端准确率可达到99.90%。与此同时,模型还能支持多情感多风格的精细化控制、不同音色之间的风格互相迁移,仅用单一语种的训练数据就能实现多语种合成效果。
声码器模块:主要负责声学特征到音频信号的建模。如今火山引擎自研了基于对抗神经网络建模的声码器,其准确率可达99.95%,依托于轻量化的模型设计及工程优化,云端实时率可达百倍以上。
推荐阅读
欢迎关注