Аналіз тональності тексту українською мовою
DOI:
https://doi.org/10.30837/bi.2021.1(96).03Ключові слова:
ТОНАЛЬНІСТЬ ТЕКСТУ, СЕНТИМЕНТ-АНАЛІЗ, УКРАЇНСЬКА МОВА, МАШИННЕ НАВЧАННЯАнотація
Стаття присвячена дослідженню методів автоматичного аналізу тональності тексту (сентимент-аналізу) та виявлення найбільш ефективних методів аналізу тональності тексту українською мовою. В результаті дослідження вирішена задача генерування набору даних (датасету) українською мовою на основі відгуків користувачів про мобільні додатки. Отриманий датасет використано для проведення експерименту з виявлення оптимального алгоритму бінарної класифікації для текстів українською мовою, а також побудована модель бінарного класифікатора на основі результатів експерименту. Вирішена задача бінарної класифікації тексту українською мовою за допомогою претренованої багатомовної BERT-моделі з використанням згенерованного датасету.
Посилання
Lerman K, Gilder A, Dredze M, Pereira F. Reading the markets: forecasting public opinion of political candidates by news analysis. In: Proceedings of the 22nd international conference on computational. – Linguistics 1, 2008. – P. 473–480.
Khan A, Baharudin B, Lee LH, Khan K. A review of machine learning algorithms for text-documents classification. – J Adv Inf Technol 1, 2010. – P. 4–20.
Text classification and prediction using the Bag Of Words approach // Medium – a place to read and write big ideas and important stories. URL:https://medium.freecodecamp. org/text-classification-and-prediction-using-bag-ofwords- 8aeb1396cded
A General Approach to Preprocessing Text Data // Machine Learning, Data Science, Big Data, Analytics, AI. URL: https://www.kdnuggets.com/2017/12/generalapproachpreprocessing- text-data.html
Bullinaria, John A., and Joseph P. Levy. Extracting semantic representations from word cooccurrence statistics: stop-lists, stemming, and SVD. – Behavior research methods 44.3, 2012. – P.890-907.
The Stanford Natural Language Processing Group. URL: https://nlp.stanford.edu/IRbook/html/htmledition/supportvector- machines-and-machine-learning-on-documents-1. html (дата звернення: 05.03.2021).
Тональний словник української мови // GitHub. URL: https://github.com/lang-u/tone-dict-uk
Kasper W. Sentiment Analysis for Hotel Reviews / Walter Kasper, Mihaela Vela. – Proceedings of the Computational Linguistics-Applications Conference. – Jachranka, Poland: Polskie Towarzystwo Informatyczne, Katowice, 10/2011. – P. 45–52.
Kan D. Rule-based approach to sentiment analysis at ROMIP 2011 / Dmitry Kan. URL: http://www.slideshare. net/dmitrykan/rule-based-approach-to-sentiment-analysisatromip- 2011
Moilanen K. Multi-entity Sentiment Scoring / Karo Moilanen, Stephen Pulman. – Proceedings of Recent Advances in Natural Language Processing (RANLP 2009). – Borovets, Bulgaria, September 14–16 2009. – P. 258–263.
Jonathan Herzig. Unlocking Compositional Generalization in Pre-trained Models Using Intermediate Representations / Jonathan Herzig, Peter Shaw, Ming-Wei Chang, Kelvin Guu, Panupong Pasupat, Yuan Zhang. // Cornell University. URL: https://arxiv.org/abs/2104.07478
Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // Cornell University. URL: https://arxiv.org/abs/1810.04805
Peter Shaw, Ming-Wei Chang, Panupong Pasupat, Kristina Toutanova. Compositional Generalization and Natural Language Variation: Can a Semantic Parsing Approach Handle Both? // Cornell University. URL: https://arxiv.org/abs/2010.12725