ABSTRACT

Despite imperfect score-matching causing drift in training and sampling distributions of diffusion models, recent advances in diffusion-based acoustic models have revolutionized data-sufficient single-speaker Text-to-Speech (TTS) approaches, with Grad-TTS being a prime example. However, the sampling drift problem leads to these approaches struggling in multi-speaker scenarios in practice due to more complex target data distribution compared to single-speaker scenarios. In this paper, we present Multi-GradSpeech, a multi-speaker diffusion-based acoustic models which introduces the Consistent Diffusion Model (CDM) as a generative modeling approach. We enforce the consistency property of CDM during the training process to alleviate the sampling drift problem in the inference stage, resulting in significant improvements in multi-speaker TTS performance. Our experimental results corroborate that our proposed approach can improve the performance of different speakers involved in multi-speaker TTS compared to Grad-TTS, even outperforming the fine-tuning approach.

DEMO

Experiment results on a internel multi-speaker Mandarin speech corpus where Speaker-S and Speaker-I stands for data-sufficient speaker and data-insufficient speaker respectively

Text: 小(xiǎo)西(xī)原(yuán)本(běn)约(yuē)好(hǎo)陪(péi)着(zhe)表(biǎo)姐(jiě)一(yì)起(qǐ)来(lái)相(xiāng)亲(qīn), 表(biǎo)姐(jiě)却(què)因(yīn)为(wéi)胆(dǎn)小(xiǎo)爽(shuǎng)约(yuē)。

Models	Results
(0) Recording
(1) Grad-TTS Single-Speaker Speaker-S
(2) Grad-TTS Multi-Speaker Speaker-S
(3) Grad-TTS Fine-tune Speaker-S
(4) Multi-GradSpeech Single Speaker Speaker-S
(5) Multi-GradSpeech Multi Speaker Speaker-S
(6) Multi-GradSpeech Fine-tune Speaker-S
(7) Grad-TTS Single-Speaker Speaker-I
(8) Grad-TTS Multi-Speaker Speaker-I
(9) Grad-TTS Fine-tune Speaker-I
(10) Multi-GradSpeech Single Speaker Speaker-I
(11) Multi-GradSpeech Multi Speaker Speaker-I
(12) Multi-GradSpeech Fine-tune Speaker-I

Text: 老(lǎo)人(rén)满(mǎn)头(tóu)白(bái)发(fà)，身(shēn)子(zi)骨(gǔ)还(hái)算(suàn)硬(yìng)朗(lǎng)，只(zhǐ)是(shì)有(yǒu)些(xiē)耳(ěr)聋(lóng)。

Models	Results
(0) Recording
(1) Grad-TTS Single-Speaker Speaker-S
(2) Grad-TTS Multi-Speaker Speaker-S
(3) Grad-TTS Fine-tune Speaker-S
(4) Multi-GradSpeech Single Speaker Speaker-S
(5) Multi-GradSpeech Multi Speaker Speaker-S
(6) Multi-GradSpeech Fine-tune Speaker-S
(7) Grad-TTS Single-Speaker Speaker-I
(8) Grad-TTS Multi-Speaker Speaker-I
(9) Grad-TTS Fine-tune Speaker-I
(10) Multi-GradSpeech Single Speaker Speaker-I
(11) Multi-GradSpeech Multi Speaker Speaker-I
(12) Multi-GradSpeech Fine-tune Speaker-I

Text: 不(bú)过(guò)，梦(mèng)想(xiǎng)着(zhe)一(yī)夜(yè)暴(bào)富(fù)的(de)他(tā)开(kāi)始(shǐ)炒(chǎo)股(gǔ)，不(bú)料(liào)，血(xuè)本(běn)无(wú)归(guī)。

Models	Results
(0) Recording
(1) Grad-TTS Single-Speaker Speaker-S
(2) Grad-TTS Multi-Speaker Speaker-S
(3) Grad-TTS Fine-tune Speaker-S
(4) Multi-GradSpeech Single Speaker Speaker-S
(5) Multi-GradSpeech Multi Speaker Speaker-S
(6) Multi-GradSpeech Fine-tune Speaker-S
(7) Grad-TTS Single-Speaker Speaker-I
(8) Grad-TTS Multi-Speaker Speaker-I
(9) Grad-TTS Fine-tune Speaker-I
(10) Multi-GradSpeech Single Speaker Speaker-I
(11) Multi-GradSpeech Multi Speaker Speaker-I
(12) Multi-GradSpeech Fine-tune Speaker-I

Contact

Email: geminiwelkin@gmail.com, xueheyang@corp.netease.com