Pembuatan Corpus Berbahasa Indonesia Menggunakan Metode Diphone Concatenation Untuk Sistem Text-to-Speech
Writer(s) : Dhinda Fitri Wiludjeng | Indrabayu | Intan Sari Areni
Teknik Informatika | Teknik Informatika S1
Perkembangan Natural Language Processing (NLP) di Indonesia sangat terhambat karena kurangnya sumber daya seperti Corpus. Hal itu disebabkan karena kurangnya perhatian pemerintah terhadap bidang kebahasaan dan penelitian ini butuh waktu yang lumayan lama karena jumlah kata yang banyak dan beragam untuk membuat sebuah Corpus. Oleh karena itu, maka sistem ini dibuat agar dapat memberi kontribusi pada penelitian ke-Bahasaan dan dapat membantu dalam pengembangan penelitian di bidang NLP di Indonesia dengan membuat sistem Text-To-Speech. Adapun metode yang digunakan untuk membangun sistem ini adalah metode Diphone Concatenation. Serta Pengambilan data dilakukan pada studio Lab. Kecerdasan Buatan Departemen Teknik Informatika Universitas Hasanuddin. Sedangkan jumlah daftar kata Corpus yang digunakan sejumlah 2000 kata dan data potongan kata (Diphone) berjumlah 225. Parameter unjuk kerja sistem ditinjau berdasarkan keberhasilan sistem dalam mengubah teks menjadi suara serta Mean Opinion Score (MOS) dari hasil kuesioner responden menggunakan 5 skenario pengujian dengan 3 kriteria penilaian, yaitu tingkat kejelasan (Intelligibility), kelancaran (Fluidity), maupun kealamian ucapan (Naturalness). Hasil penelitian menunjukkan tingkat keberhasilan sistem mengkonversi teks ke suara memperoleh akurasi hingga 100% pada setiap skenario untuk setiap kata yang terdapat pada database kata Diphone. Penelitian ini juga meninjau kualitas keluaran sistem menggunakan MOS dari 3 kriteria penilaian, menunjukkan hasil rata-rata pada setiap skenario yaitu untuk tingkat Intelligibility mencapai nilai 3.7, lalu tingkat Fluidity mencapai nilai 3.7 dan tingkat Naturalness mencapai nilai 3.8. Sistem Text-to-Speech Corpus bahasa Indonesia yang dibuat menggunakan metode Diphone Concatenation memiliki tingkatan kualitas hasil konversi suara yang dapat dipahami dengan ucapan yang jelas, pengucapannya lancar dari transisi antar Diphone, serta pengucapan dari suaranya berintonasi baik dan sesuai dengan pengucapan manusia pada umumya.
Keyword(s): Natural Language Processing, Text-To-Speech, Diphone Concatenation, Mean Opinion Score
Year : 2016