Text-to-speech system for low resource languages using cross-lingual transfer learning and data augmentation

Abstract

Deep learning techniques are currently being applied in automated text-to-speech (TTS) systems, resulting in significant improvements in performance. However, these methods require large amounts of text-speech paired data for model training, and collecting this data is costly. Therefore, in this paper we propose a single-speaker TTS system containing both a spectrogram prediction network and a neural vocoder for the target language, using only 30 minutes of target language text-speech paired data for training. We evaluate three approaches for training the spectrogram prediction models of our TTS system, which produce mel-spectrograms from the input phoneme sequence; (1) cross-lingual transfer learning, (2) data augmentation, and (3) a combination of the previous two methods. In the cross-lingual transfer learning method, we used two high-resource language datasets, English (24 hours) and Japanese (10 hours). We also used 30 minutes of target language data for training in all three approaches, and for generating the augmented data used for training in methods 2 and 3. We found that using both cross-lingual transfer learning and augmented data during training resulted in the most natural synthesized target speech output. We also compare single-speaker and multi-speaker training methods, using sequential and simultaneous training, respectively. The multi-speaker models were found to be more effective for constructing a single-speaker, low-resource TTS model. In addition, we trained two Parallel WaveGAN (PWG) neural vocoders, one using 13 hours of our augmented data with 30 minutes of target language data and one using the entire 12 hours of the original target language dataset. Our subjective AB preference test indicated that the neural vocoder trained with augmented data achieved almost the same perceived speech quality as the vocoder trained with the entire target language dataset. We found that our proposed TTS system consisting of a spectrogram prediction network and a PWG neural vocoder was able to achieve reasonable performance using only 30 minutes of target language training data. We also found that by using 3 hours of target language data, for training the model and for generating augmented data, our proposed TTS model was able to achieve performance very similar to that of the baseline model, which was trained with 12 hours of target language data.

Generated samples

1. M-MN (Baseline)

Азийн хөгжлийн банктай байгуулсан гэрээний хугацааны хоёр дахь шат нь зургадугаар сард дуусна.
Өнөө маргаашдаа нутгийн зүүн хагаст салхи шуургатай, хүйтэн байхыг онцгойлон анхааруулж байна.
Хөгжлийн бэрхшээлтэй хүүхдийн сурах орчинг бүрдүүлсэн жишиг сургууль ашиглалтад орлоо.

2. Single-speaker model using TL (30m)

MSJ-TL MSE10-TL MSE24-TL MSEJ-TL
Азийн хөгжлийн банктай байгуулсан гэрээний хугацааны хоёр дахь шат нь зургадугаар сард дуусна.
Өнөө маргаашдаа нутгийн зүүн хагаст салхи шуургатай, хүйтэн байхыг онцгойлон анхааруулж байна.
Хөгжлийн бэрхшээлтэй хүүхдийн сурах орчинг бүрдүүлсэн жишиг сургууль ашиглалтад орлоо.

3. Multi-speaker model using TL (30m)

MMJ-TL MME10-TL MME24-TL MMEJ-TL
Азийн хөгжлийн банктай байгуулсан гэрээний хугацааны хоёр дахь шат нь зургадугаар сард дуусна.
Өнөө маргаашдаа нутгийн зүүн хагаст салхи шуургатай, хүйтэн байхыг онцгойлон анхааруулж байна.
Хөгжлийн бэрхшээлтэй хүүхдийн сурах орчинг бүрдүүлсэн жишиг сургууль ашиглалтад орлоо.

4. Multi-speaker model using DA (30m)

MM-DA
Азийн хөгжлийн банктай байгуулсан гэрээний хугацааны хоёр дахь шат нь зургадугаар сард дуусна.
Өнөө маргаашдаа нутгийн зүүн хагаст салхи шуургатай, хүйтэн байхыг онцгойлон анхааруулж байна.
Хөгжлийн бэрхшээлтэй хүүхдийн сурах орчинг бүрдүүлсэн жишиг сургууль ашиглалтад орлоо.

5. Single-speaker model using TL and DA (30m)

MSEJ-TL-DA MSEJ-TL-DAD
Азийн хөгжлийн банктай байгуулсан гэрээний хугацааны хоёр дахь шат нь зургадугаар сард дуусна.
Өнөө маргаашдаа нутгийн зүүн хагаст салхи шуургатай, хүйтэн байхыг онцгойлон анхааруулж байна.
Хөгжлийн бэрхшээлтэй хүүхдийн сурах орчинг бүрдүүлсэн жишиг сургууль ашиглалтад орлоо.

6. Multi-speaker model using TL and DA (30m)

MMEJ-TL-DA MMEJ-TL-DAD
Азийн хөгжлийн банктай байгуулсан гэрээний хугацааны хоёр дахь шат нь зургадугаар сард дуусна.
Өнөө маргаашдаа нутгийн зүүн хагаст салхи шуургатай, хүйтэн байхыг онцгойлон анхааруулж байна.
Хөгжлийн бэрхшээлтэй хүүхдийн сурах орчинг бүрдүүлсэн жишиг сургууль ашиглалтад орлоо.

7. Multi-speaker model using TL and DA (30m, 1h, 2h, 3h)

MMEJ-TL-DA (30m) MMEJ-TL-DA (1h) MMEJ-TL-DA (2h) MMEJ-TL-DA (3h) M-MN (Baseline)
Азийн хөгжлийн банктай байгуулсан гэрээний хугацааны хоёр дахь шат нь зургадугаар сард дуусна.
Өнөө маргаашдаа нутгийн зүүн хагаст салхи шуургатай, хүйтэн байхыг онцгойлон анхааруулж байна.
Хөгжлийн бэрхшээлтэй хүүхдийн сурах орчинг бүрдүүлсэн жишиг сургууль ашиглалтад орлоо.

8. Speaker similarity

GT M-MN (Baseline) MMEJ-TL-DA (30m)
Есүс түмэн олныг хараад, уул өөд гаран суухад шавь нар нь түүн дээр ирлээ. Азийн хөгжлийн банктай байгуулсан гэрээний хугацааны хоёр дахь шат нь зургадугаар сард дуусна.
Зүрхэндээ цэвэр ариун байгсад ерөөлтэйеэ, тэд бурхныг харах болно. Өнөө маргаашдаа нутгийн зүүн хагаст салхи шуургатай, хүйтэн байхыг онцгойлон анхааруулж байна.
Хуулийг, эсвэл иш үзүүлэгчдийг хэрэгсэхгүй болгохоор намайг ирсэн гэж бүү бод. Хөгжлийн бэрхшээлтэй хүүхдийн сурах орчинг бүрдүүлсэн жишиг сургууль ашиглалтад орлоо.

9. Parallel WaveGan neural vocoder

NV-MN (baseline) NV-DA (30m)
Тээврийн жолооч нарыг бүртгэлжүүлэх, шинжилгээ авах, түр байршуулах зэрэг боломжийг цогцоор бүрдүүлж, халдвараас сэргийлэн ажиллаж байна.
Цаг агаарын мэдээ, мэдээллийг цаг тухай бүр сонсон, мэргэжлийн байгууллагаас өгч байгаа сэрэмжлүүлэг, анхааруулгыг дагах хэрэгтэйг сануулж байна.
Ногоон байгууламжийн мод сөөгийн төрөл зүйлийг нэмэгдүүлж, гацуур модны суулгацыг жил бүр тодорхой байршлуудад тарьж ургуулж байна.