Модифікація методу класифікації Байєса в задачах виявлення спаму українською мовою
DOI:
https://doi.org/10.30837/bi.2021.1(96).04Ключові слова:
МАШИННЕ НАВЧАННЯ, МЕТОД КЛАСИФІКАЦІЇ БАЙЄСА, УКРАЇНСЬКА МОВА, АПОСТРОФ, СПАМ, ПРОГНОЗУВАННЯАнотація
Стаття присвячена аналізу існуючих технологій для виконання задачі класифікації української мови з метою фільтрації спаму. В рамках дослідження було проаналізовано недоліки методу класифікації Байєса в рамках сучасної реалізації цього методу на мові програмування Python для роботи з українською мовою. Основним недоліком програмної реалізації методу Байєса було виявлено некоректний для української мови поділ на слова за умови, що слова містять апостроф. Для виправлення цієї проблеми було розроблемо модифікований метод класифікації за Байєсом, який коректно працює зі словами української мови, що містять апостроф. В результаті вдалось підняти ефективність спрогнозованого класифікування спаму з 86% до 91%.
Посилання
Simon Kemp. Digital 2020: 3.8 billion people use social media / Simon Kemp URL: https://wearesocial.com/blog/2020/01/digital-2020-3- 8-billion-people-use-social-media (дата звернення: 25.03.2021).
Joseph Johnson. Number of sent and received e-mails per day worldwide from 2017 to 2025 / Johnson Joseph URL: https://www. statista.com/statistics/456500/daily-number-of-e-mails-worldwide/
Барсегян А.А. Анализ данных и процессов: учеб. пособие / А.А. Барсегян, М.С. Куприянов, И.И. Холод, М.Д. Тесс, С.И. Елизаров. – 3-е изд., перераб. и доп. – Санкт-Петербург : БХВ- Петербург, 2009. – 512 с.
Yang Y. A re-examination of text categorization methods / Y. Yang, X. Liu // Proc. of Int.ACM Conference on Research and Development in Information Retrieval (SIGIR-99), 1999.– P. 42-49.
Вагин В.Н. Достоверный и правдоподобный вывод в интеллектуальных системах /В. Н. Вагин, Е. Ю. Головина, А. А. Загорянская, М. В. Фомина. – Москва : Физматлит, 2004. – 704 с.
Bradley P. Carlin Bayes and Empirical Bayes Methods for Data Analysis, Second Edition 2nd Edition / P. Bradley Carlin, A. Thomas Louis. – 2000. – 440 p.
Joachims Т. Making large-scale SVM learning practical / T. Joachims // Advances in Kernel Methods Support Vector Learning. – MIT Press, 1999. – 218 p.
Sebastiani F. Machine learning in automated text categorization / F. Sebastiani // ACM Comput. Surv. – March 2010. – Vol. 34, No. 1. – P. 1-47.
Jean Dos Santos. Ham or Spam? SMS Text Classification Walkthrough / Santos Dos Jean URL: https://www.kaggle.com/jeandsantos/hamor- spam-sms-text-classification-walkthrough
Richard S. Sutton Reinforcement Learning, second edition: An Introduction (Adaptive Computation and Machine Learning series) / Sutton S. Richard Barto G. Andrew. – 2018. – 552 p.