Penerapan Model IndoBERT-LSTM untuk Klasifikasi Berita Hoax Berbahasa Indonesia

Writer(s) : Hardianto Tandi Seno | Anugrayani Bustamin

Teknik Informatika | Teknik Informatika S1

PDF
Login required to download this file
Abstract

Latar belakang. Berdasarkan data penyebaran isu hoax yang ditemukan oleh KOMINFO pada periode Agustus 2018 – 31 Desember 2023, terdapat 12.547 konten isu hoax yang tersebar di media digital. Selain itu, tingkat literasi di Indonesia masih rendah yang berdampak pada kemampuan untuk mengevaluasi informasi dan membedakan suatu berita itu hoax atau tidak masih kurang. Tujuan. Penelitian ini bertujuan untuk mengetahui cara mengimplementasikan dan tingkat performa model IndoBERT-LSTM dalam mengklasifikasikan berita hoax. Metode. Penelitian dilakukan dengan beberapa tahapan utama, seperti pengumpulan dataset berita, proses preprocessing data pada berita, perancangan model IndoBERT-LSTM, dan evaluasi serta pengujian terhadap hasil pemodelan. Hasil. Penelitian dilakukan dengan beberapa skenario penggunaan Dropout Rate (0.2 dan 0.6) dan Batch Size (32 dan 64). Pada dataset gabungan (Politik & Pemerintahan, Kesehatan) dengan Dropout Rate 0.6 dan Batch Size 64, diperoleh nilai Loss 0.1174, Accuracy 0.9731, Precision 0.9749, Recall 0.9719, dan F1-Score 0.9734. Pada dataset topik Politik & Pemerintahan dengan Dropout Rate 0.6 dan Batch Size 32, diperoleh nilai Loss 0.0694, Accuracy 0.9812, Precision 0.9915, Recall 0.9710, dan F1-Score 0.9811. Pada dataset topik Kesehatan dengan Dropout Rate 0.2 dan Batch Size 32, diperoleh nilai Loss 0.3675, Accuracy 0.9256, Precision 0.8807, Recall 0.9873, dan F1-Score 0.9309. Kesimpulan. IndoBERT-LSTM dapat diimplementasikan untuk tugas klasifikasi berita hoax berbahasa Indonesia dengan hasil tertinggi pada dataset topik Politik & Pemerintahan berdasarkan jumlah data dan konteks data yang lebih homogen. Model yang dilatih dengan dataset gabungan kedua topik memberikan hasil evaluasi di atas 0.97 dan nilai Loss di bawah 0.2 meskipun ada perbedaan konteks antara kedua topik.