TEXT TO SPEECH BAHASA BUGIS MENGGUNAKAN TACOTRON 2 DENGAN METODE TRANSFER LEARNING

Writer(s) : Nur Hikmah | Ingrid Nurtanio | Anugrayani Bustamin

Teknik Informatika | Teknik Informatika S1

PDF
Login required to download this file
Abstract

Bahasa daerah seperti Bahasa Bugis, adalah bagian tak terpisahkan dari kekayaan budaya Indonesia yang perlu dilestarikan. Teknologi Text-to-Speech (TTS), selain menjadi alat yang bermanfaat dibidang pendidikan, juga dapat digunakan untuk mempromosikan bahasa Bugis dan membuatnya lebih mudah diakses oleh masyarakat luas. Namun, penggunaan teknologi TTS untuk bahasa daerah masih terbatas karena keterbatasan data dan sumber daya komputasi untuk membangun model TTS itu sendiri. Untuk mengatasi hambatan tersebut, penelitian ini bertujuan untuk mengembangkan model TTS bahasa Bugis yang berkualitas tinggi menggunakan arsitektur Tacotron 2 dan metode transfer learning meskipun dengan sumber data yang terbatas (low resource).


Penelitian ini menggunakan Tacotron 2, sebuah arsitektur jaringan saraf end-to-end yang mampu menghasilkan suara berkualitas tinggi berdasarkan teks input. Serta metode transfer learning dipilih untuk memanfaatkan pengetahuan yang telah dipelajari dari model Tacotron 2 yang dilatih pada dataset bahasa Inggris (pre-trained model) dan menyesuaikannya dengan Bahasa Bugis yang memiliki sumber daya data yang terbatas menggunakan teknik fine-tuning.


Fine-tuning hyperparameter pada model Bugis TTS yang optimal diperoleh pada epoch 183 dari total 200 epoch, learning rate 1e-5 (0.00001) dan dropout 0.1 yang memperoleh loss training dan loss validation paling rendah yaitu 0.12 dan 0.10. Adapun untuk mengevaluasi kualitas suara yang dihasilkan model Bugis TTS dilakukan dengan metrik Mean Opinion Score (MOS) dan metode pendukung lainnya yaitu tes Turing, tes Listening dan Confusion Matrix. Terdapat tiga kriteria penilaian kualitas suara, yaitu dari segi naturalness (kealamian ucapan), fluidity (kelancaran ucapan) dan intelligibility (kejelasan ucapan), yang masing-masing memperoleh nilai MOS 4.30, 4.37 dan 4.40. Dimana skor tertinggi diperoleh oleh tingkat kejelasan ucapan yang juga didukung dengan hasil evaluasi tes Listening, dan skor terendah pada tingkat kealamian ucapan yang juga didukung oleh hasil tes Turing dan Confusion Matrix. Sehingga secara keseluruhan MOS yang diperoleh model Bugis TTS ini adalah 4.36 dari skala 5, dengan skor tersebut sudah menunjukkan bahwa model Bugis TTS yang dibangun dan dikembangkan menggunakan Tacotron 2 dengan pendekatan transfer learning ini mampu menghasilkan suara dengan kualitas yang mudah dipahami dan cukup alami untuk bahasa Bugis meskipun hanya dengan dataset yang relatif sedikit yaitu 1 jam 5 menit.