Klasifikasi Algoritma Naive Bayes Terhadap Data Imbalance

Authors

  • MUHAMMAD ARIEL FADHILAH F Program Studi Informatika, Institut Teknologi Nasional

Keywords:

Classification, Naive Bayes, Imbalance, SMOTE

Abstract

Imbalanced data is a condition where the amount of data in a class is much more than other classes, imbalanced data can cause predictions in minority classes to be poor and reduce the performance of the model used. Classification is done using the Naive Bayes algorithm to get a prediction of burnout in college students, the data used amounted to 104 data which has
three independent variables to make predictions. Imbalance data will go through a data balancing process using the Synthetic Minority Oversampling Technique (SMOTE), the results of Naive Bayes classification have decreased the performance of the accuracy model by 9.52%, precission 7.8%, recall 9.52% and f1-score 8.55%. The model performance evaluation results are influenced by the small number of datasets. 

Abstrak

Data Imbalance adalah kondisi jumlah data suatu kelas jauh lebih banyak dibandingkan dengan kelas lainnya, data imbalanced dapat menyebabkan prediksi pada kelas minoritas menjadi buruk dan menurunkan kinerja terhadap model yang digunakan. Klasifikasi dilakukan menggunakan algoritma Naive Bayes untuk mendapatkan prediksi burnout pada mahasiswa, data yang digunakan berjumlah 104 data yang memiliki tiga variabel independen untuk melakukan prediksi. Data imbalance akan melalui proses balancing data menggunakan Teknik Synthetic Minority Oversampling Technique (SMOTE), hasil klasifikasi Naive Bayes mengalami penurunan kinerja model accuracy sebesar 9,52%, precission 7,8%, recall 9,52% dan f1-score 8,55%. Hasil evaluasi kinerja model tersebut dipengaruhi oleh jumlah dataset yang kecil.

Downloads

Published

2024-12-09