Метод виявлення джерел дезінформації на основі ансамблевих моделей машинного навчання.
DOI:
https://doi.org/10.30837/bi.2025.1(102).02Ключові слова:
ДЕЗІНФОРМАЦІЯ, ДАТАСЕТ, МАШИННЕ НАВЧАННЯ, АНСАМБЛЕВІ МОДЕЛІ, ЛІНІЙНА РЕГРЕСІЯ, ЛОГІСТИЧНА РЕГРЕСІЯ, ЕМБЕДИНГАнотація
У представленому дослідженні розроблено метод виявлення джерел дезінформації на основі ансамблевих моделей машинного навчання. Проаналізовано сучасні методи боротьби з дезінформацією та виявлення неправдивого контенту. В рамках роботи реалізовано систему ідентифікації фейків, побудовану на ансамблевому підході, а також описано її архітектурну структуру. Детально описано основні етапи очищення текстових даних, отриманих із соціальних мереж і новинних, зокрема нормалізацію категоріальних змінних. Проведено статистичний аналіз тексту та аналіз критеріїв виявлення джерел поширення дезінформації. Здійснено аналіз балансу цільових і допоміжних змінних, що дало змогу виявити залежності між мовою повідомлення та достовірністю. Для моделювання використано два різні типи текстових ембедингів та відповідні моделі класифікації: лінійну регресію та логістичну регресію. Підсумковим етапом стало застосування ансамблю моделей, що дало змогу поєднати прогностичну здатність обох моделей. Результати показали, що комбінація підходів покращує класифікаційну якість, особливо в умовах незбалансованих даних. Використання ансамблю моделей дало змогу збільшити точність з 73% (модель 1) та 71% (модель 2) до 78%.
Посилання
Ahmad, I., Yousaf, M., Yousaf, S., & Ahmad, M. (2020). Fake news detection using machine learning ensemble methods. Complexity 2020, 1–11.
Harb, J.G., Ebeling, R., & Becker, K. (2020). A framework to analyse the emotional reactions to mass violent events on Twitter and influential factors. Inform Process Manag, 57(6).
Akinyemi, B. (2020). An improved classification model for fake news detection in social media. International Journal of Information Technology and Computer Science, 12(1), pp. 34–43. https://doi.org/10.5815/ijitcs.2020.01.05.
Maniruzzaman, M., Rahman, M.J., Al-MehediHasan, M., Suri, H.S., Abedin, M.M., et al. (2018). Accurate diabetes risk stratification using machine learning: role of missing value and outliers. J Med Syst, 42(5), pp. 92. https://doi.org/10.1007/s10916-018-0940-7.
Machova, K., Mach, M., & Vasilko, M. (2022). Comparison of Machine Learning and Sentiment Analysis in Detection of Suspicious Online Reviewers on Different Type of Data. Sensors, 22, 155.
Sansonetti, G., Gasparetti, F., D’aniello, G., & Micarelli, A. (2020). Unreliable Users Detection in Social Media: Deep Learning Techniques for Automatic Detection. IEEE Access, 8, 213154–213167.
Kandasamy, V., Trojovský, P., Machot, F.A., Kyamakya, K., Bacanin, N., Askar, S., & Abouhawwash, M. (2021). Sentimental Analysis of COVID-19 Related Messages in Social Networks by Involving an N-Gram Stacked Autoencoder Integrated in an Ensemble Learning Scheme. Sensors, 21, 7582.
Papakostas, D., Stavropoulos, G., & Katsaros, D. (2022). Evaluation of Machine Learning Methods for Fake News Detection. In Combating Fake News with Computational Intelligence Techniques, Studies in Computational Intelligence; Lahby, M., Pathan, A.K., Maleh, J., Shafer-Yafooz, W.M., Eds.; Springer International Publishing: Berlin/Heidelberg, Germany, Volume 1001, pp. 163–183.
Jiang, T., Li, J.P., Haq, A.U., Saboor, A., & Ali, A. (2021). A Novel Stacking Approach for Accurate Detection of Fake News. IEEE Access 2021, 9, 22626–22639.
Kaliyar, R.K., Goswami, A., & Narang, P. (2021). DeepFakE: Improving fake news detection using tensor decomposition-based deep neural network. J. Supercomput. 77, 1015–1037.
Zhang, J., Dong, B., & Yu, P.S. (2020). FakeDetector: Effective fake news detection with deep diffusive neural network. In Proceedings of the International Conference on Data Engineering, Dallas, USA, pp. 1826–1829.
Truică, C.O., & Apostol, E.S. (2023). It’s All in the Embedding! Fake News Detection Using Document Embeddings. Mathematics, 11, 508.
Deepak, P., Tanmoy, C., & Cheng, L. (2021). Santhosh Kumar, G. Multi-modal Fake News Detection. Inf. Retr. Ser., 42, 41–70.
Sharma, D.K., Garg, S., & Shrivastava, P. (2021). Evaluation of tools and extension for fake news detection. In Proceedings of the International Conference of Innovative Practices in Technology and Management (ICIPTM 21), India, pp. 227–232.
Hrúz, M., Gruber, I., Kanis, J., Boháˇcek, M., Hlaváˇc, M., & Krˇnoul, Z. (2022). One Model is not Enough: Ensembles for Isolated Sign Language Recognition. Sensors, 22, 5043.
Atitalah, S.B., Driss, M., & Almomani, I. (2022). A Novel Detection and Multi-Classification Approach for IoT-Malware Using Random Forest Voting of Fine-Tuning Convolutional Neural Networks. Sensors, 22, 4302.
Heidari, M., Zad, S., Hajibabaee, P., Malekzadeh, M., Hekmati Athar, S., Uzuner, O., & Jones, J.H. (2021). BERT Model for Fake News Detection Based on Social Bot Activities in the COVID-19 Pandemic. In Proceedings of the IEEE 12th Annual Ubiquitous Computing, Electronics & Mobile Communication Conference (UEMCON), New York, USA, pp. 0103–0109.
Umer, M., Imtiaz, Z., Ullah, S., Mehmood, A. Choi, G.S., & On, B.W. (2020). Fake News Stance Detection Using Deep Learning Architecture (CNN-LSTM). IEEE Access 2020, 8, 156695–156706.
Лозинська, О., Марків, О., Висоцька, В., Романчук, Р., & Назаркевич, М. (2024). Інформаційна технологія розроблення та наповнення датасету дезінформації з використанням інтелектуального пошуку дипфейків та клікбейтів. Herald of Khmelnytskyi National University. Technical Sciences, № 343, т. 6(1), c. 158-167. DOI: 10.31891/2307-5732-2024-343-6-24.