Evaluasi Kinerja Model CatBoost pada Penanganan Missing Value
DOI:
https://doi.org/10.33005/santika.v6i1.1014Keywords:
Machine Learning, Hipertensi, CatBoost, Missing Value, Klasifikasi Risiko HipertensiAbstract
Hipertensi merupakan masalah kesehatan global dengan prevalensi yang terus meningkat dan sering tidak terdeteksi sejak dini. Oleh karena itu, diperlukan model prediksi yang akurat untuk membantu deteksi dini dan pengelolaan risiko. Dataset yang digunakan adalah Hypertension Risk Dataset yang terdiri dari 1.985 sampel dan 11 variabel yang mencakup karakteristik individu, gaya hidup, serta riwayat kesehatan. Penelitian ini membandingkan dua strategi penanganan missing value, yaitu imputasi dengan mengisi nilai kosong menjadi kategori “Non-Medication” dan penghapusan baris data yang mengandung nilai kosong. Model CatBoost dilatih menggunakan skenario pembagian data 80:20 dan dievaluasi menggunakan metrik accuracy, precision, recall, F1-score, serta confusion matrix. Hasil penelitian menunjukkan bahwa kedua strategi menghasilkan akurasi yang sangat tinggi, yaitu sekitar 0,987. Namun, strategi imputasi memberikan keseimbangan yang lebih baik antara precision dan recall, sehingga model lebih efektif dalam mengenali sampel positif dan negatif. Selain itu, imputasi mampu mempertahankan ukuran dataset yang lebih besar dibandingkan metode penghapusan data. Dengan demikian, strategi imputasi menunjukkan kinerja yang lebih optimal dalam mendukung prediksi risiko hipertensi.
References
“Global report on hypertension The race against a silent killer.”
World Health Organization, “Hypertension,” World Health Organization. Accessed: Dec. 16, 2025. [Online]. Available: https://www.who.int/news-room/fact-sheets/detail/hypertension
A. A. Lukito, “PANDUAN PROMOTIF DAN PREVENTIF HIPERTENSI 2023 Editor.”
U. Qalsum and W. Abidin, “Klasifikasi Penyakit Hipertensi
Menggunakan Metode K-Means Clustering.”
L. ’ Lu’ Anjeli and F. Rizki, “ANALISIS PREDIKSI PENYAKIT JANTUNG MENGGUNAKAN PERBANDINGAN ALGORITMA MACHINE LEARNING ANALYSIS OF HEART DISEASE PREDICTION USING A COMPARATIVE STUDY OF MACHINE LEARNING
ALGORITHMS,” vol. 4, no. 2, 2025, [Online]. Available:
https://www.kaggle.com/datasets/fedesoriano/heart-failure-
T. Pustaka, H. Usia, M. Rahmawati, and R. P. Kasih, “Galenical is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License,” 2023.
C. Casmuti and A. I. Fibriana, “Kejadian Hipertensi di Wilayah Kerja Puskesmas Kedungmundu Kota Semarang,” HIGEIA (Journal of Public Health Research and Development), vol. 7, no. 1, pp. 123–134, Jan. 2023, doi: 10.15294/higeia.v7i1.64213.
H. Muftisany, T. F. Efendi, and N. A. Rozaq Rais, “Perbandingan Kinerja Algoritma Random Forest, AdaBoost, dan Gradient Boosting dalam Memprediksi Risiko Penyakit Hipertensi,” Faktor Exacta, vol. 18, no. 2, p. 161, Oct. 2025, doi: 10.30998/faktorexacta.v18i2.28959.
F. V. Ongkosianbhadra and C. C. Lestari, “Pengembangan Model Prediksi Risiko Hipertensi Menggunakan Algoritma Gradient Boosting Decision Tree Yang Dioptimalkan,” Jurnal Informatika dan Sistem Informasi, vol. 9, no. 2, pp. 90–99, Dec. 2023, doi: 10.37715/juisi.v9i2.4403.
R. Maulana Yusup and E. Rijanto, “Analisis Komparatif Model Pembelajaran Mesin Untuk Memprediksi Hipertensi Ke Dalam Empat Kelas Berdasarkan JNC 8”.
M. A. Pradana, R. I. Maulana, R. S. Putra, S. Subairi, and F. T. Anggraeny, “Klasifikasi Penyakit Tanaman Tomat Menggunakan Metode Convolutional Neural Network (CNN) VGG16,” KERNEL: Jurnal Riset Inovasi Bidang Informatika dan Pendidikan Informatika, vol. 4, no. 2, pp. 61– 69, Dec. 2023, doi: 10.31284/j.kernel.2023.v4i2.6829.
F. T. Anggraeny, I. Y. Purbasari, M. Syahrul Munir, F. Muttaqin, E. Prakarsa Mandyarta, and A. Akbar, “Analysis of Simple Data Imputation in Disease Dataset,” 2018.
M. L. Pratama, Y. V. Via, and E. P. Mandyartha, “ANALISIS PERFORMANSI NAIVE BAYES DAN RANDOM FOREST TERHADAP SENTIMEN KENAIKAN HARGA BBM DI INDONESIA 1.”
