Дослідження способів усунення дисбалансу класів серед медичних та психологічних даних у побудові алгоритму випадковий ліс
DOI:
https://doi.org/10.30837/bi.2026.1(104).08Ключові слова:
ВИПАДКОВИЙ ЛІС, ДИСБАЛАНС КЛАСІВ, КЛАС МЕНШОСТІ, ADABOOST, ADASYN, OVERSAMPLING, RUSBOOST, SMOTE, UNDERSAMPLINGАнотація
Випадковий ліс є широко відомим методом прогнозування, який застосовується в екології, бізнесі, фінансах, медицині, ІТ. Незважаючи на те, що він є досить потужним механізмом будування відповідних моделей, алгоритм може надавати некоректні результати, тому потребує удосконалення. Таких способів наразі багато, але необхідними в нашому випадку, а саме у спостереженні за розвитком психологічних розладів серед людей, хворих на гіпо- та гіпертиреоз, є не всі. В минулому дослідженні ми обирали найоптимальніший спосіб налаштувань гіперпараметрів для будування дерев рішень, де найпідходящим та найкращим було виявлено метод байєсівської оптимізації. В цьому експерименті наступним кроком є вибір підходу до усунення дисбалансу класів серед медичних даних пацієнтів, таких як undersampling, oversampling, SMOTE, RUSBoost, збалансований випадковий ліс (BRF) та ADASYN. На основі даних за критеріями часу, accuracy, precision, recall та F1 побудовано лінійну адитивну згортку задля прийняття рішення. За її показниками видно, що в нашому випадку слід обирати RUSBoost як спосіб боротьби з класами меншості, щоб алгоритм видавав більш точні результати.
Посилання
Buda, M., Maki, A., & Mazurowski, M.A. (2021). A multiple combined method for rebalancing medical data with class imbalance. Computers in Biology and Medicine, 135, 104589. DOI: https://doi.org/10.1016/j.compbiomed.2021.104589.
Prasetyo, E., et al. (2018). Evaluating Ensemble Learning Techniques for Class Imbalance Problem. Scientific Journal of Informatics, 5(2), pp. 184–193. URL: https://journal.unnes.ac.id/journals/sji/article/view/15937/2440
(Автори згідно статті). (2023). Implementation of Imbalanced Learning Methods Using RUSBoost. Mortalita, 4(2). URL: https://ejournal.darunnajah.ac.id/index.php/mortalita/article/view/709/390
(Автори згідно статті). (2023). Comparative Analysis of Imbalanced Data Handling Using Ensemble Methods. RESTIA, 7(3). URL: https://journal.aiskauniversity.ac.id/index.php/restia/article/view/1906/853
(Автори згідно статті). (2023). Performance Analysis of RUSBoost for Imbalanced Dataset Classification. International Journal of Multidisciplinary and Current Research, 11. URL: https://ijmcr.in/index.php/ijmcr/article/view/1121/855
(Автори згідно статті). (2024). Application of Ensemble Learning Methods on Imbalanced Medical Dataset. Jurnal Matematika, Statistika dan Komputasi, 20(1). URL: https://journal.unhas.ac.id/index.php/jmsk/article/view/35552/12001
Fernández, A., García, S., Galar, M., Prati, R.C., Krawczyk, B., & Herrera, F. (2018). Learning from Imbalanced Data Sets. Journal of Information and Visualization, 8(3). URL: https://joiv.org/index.php/joiv/article/view/2283
Iglesias, J.E., Liu, C.Y., Thompson, P.M., & Tu, Z. (2015). Automated hippocampal segmentation in 3D MRI using random undersampling with boosting algorithm. Pattern Analysis and Applications, 18, pp. 851–864. DOI: https://doi.org/10.1007/s10044-015-0492-0
Kaur, H., Pannu, H.S., & Malhi, A.K. (2020). Boosting methods for multi-class imbalanced data classification: an experimental review. Journal of Big Data, 7, Article 65. DOI: https://doi.org/10.1186/s40537-020-00349-y.
U. Hasanah, A. M. Soleh, and K. Sadik, Effect of Random Under Sampling, Oversampling, and SMOTE on the Performance of Cardiovascular Disease Prediction Models, Jurnal Matematika, Statistika dan Komputasi 21 (2024) 88-102.
R. Hidayat, M. A. Syawaludin, and N. Nurmalitasari, Prediksi Churn Pelanggan Multinational Bank Menggunakan Algoritma Machine Learning, Simpatik: Jurnal Sistem Informasi dan Informatika 4 (2024) 89-97.
F. Ismail and I. I. Lawanda, Implementasi EDMS dalam Penataan Dokumen di Rail Document System PT. Kereta Api Indonesia (Persero) Daerah Operasi 1 Jakarta, Baca: Jurnal Dokumentasi Dan Informasi 41 (2020) 143-168.
S. M. Kim, Y. Kim, K. Jeong, H. Jeong, and J. Kim, Logistic LASSO Regression for the Diagnosis of Breast Cancer Using Clinical Demographic Data and the BI-RADS Lexicon for Ultrasonography, Ultrasonography 37 (2018) 36-42.
M. Marcellina and A. Mukhlason, Analisis Prediktif Churn untuk Meningkatkan Tingkat Retensi Pelanggan pada Perusahaan SaaS Menggunakan Machine Learning, ILKOMNIKA 6 (2024) 21-32.
R. Zhu, Y. Guo, and J.-H. Xue, “Adjusting the imbalance ratio by the dimensionality of imbalanced data,” Pattern Recognit. Lett., vol. 133, pp. 217–223, 2020, doi: https://doi.org/10.1016/j.patrec.2020.03.004.
M. Çakır, A. Degirmenci, and O. Karal, “Exploring the Behavioural Factors of Cervical Cancer Using ANOVA and Machine Learning Techniques BT -Science, Engineering Management and Information Technology,” A. Mirzazadeh, B. Erdebilli, E. Babaee Tirkolaee, G.-W. Weber, and A. K. Kar, Eds., Cham: Springer Nature Switzerland, 2023, pp. 249–260