Аналіз тональності тексту українською мовою

Автор(и)

DOI:

https://doi.org/10.30837/bi.2021.1(96).03

Ключові слова:

ТОНАЛЬНІСТЬ ТЕКСТУ, СЕНТИМЕНТ-АНАЛІЗ, УКРАЇНСЬКА МОВА, МАШИННЕ НАВЧАННЯ

Анотація

Стаття присвячена дослідженню методів автоматичного аналізу тональності тексту (сентимент-аналізу) та виявлення найбільш ефективних методів аналізу тональності тексту українською мовою. В результаті дослідження вирішена задача генерування набору даних (датасету) українською мовою на основі відгуків користувачів про мобільні додатки. Отриманий датасет використано для проведення експерименту з виявлення оптимального алгоритму бінарної класифікації для текстів українською мовою, а також побудована модель бінарного класифікатора на основі результатів експерименту. Вирішена задача бінарної класифікації тексту українською мовою за допомогою претренованої багатомовної BERT-моделі з використанням згенерованного датасету.

Посилання

Lerman K, Gilder A, Dredze M, Pereira F. Reading the markets: forecasting public opinion of political candidates by news analysis. In: Proceedings of the 22nd international conference on computational. – Linguistics 1, 2008. – P. 473–480.

Khan A, Baharudin B, Lee LH, Khan K. A review of machine learning algorithms for text-documents classification. – J Adv Inf Technol 1, 2010. – P. 4–20.

Text classification and prediction using the Bag Of Words approach // Medium – a place to read and write big ideas and important stories. URL:https://medium.freecodecamp. org/text-classification-and-prediction-using-bag-ofwords- 8aeb1396cded

A General Approach to Preprocessing Text Data // Machine Learning, Data Science, Big Data, Analytics, AI. URL: https://www.kdnuggets.com/2017/12/generalapproachpreprocessing- text-data.html

Bullinaria, John A., and Joseph P. Levy. Extracting semantic representations from word cooccurrence statistics: stop-lists, stemming, and SVD. – Behavior research methods 44.3, 2012. – P.890-907.

The Stanford Natural Language Processing Group. URL: https://nlp.stanford.edu/IRbook/html/htmledition/supportvector- machines-and-machine-learning-on-documents-1. html (дата звернення: 05.03.2021).

Тональний словник української мови // GitHub. URL: https://github.com/lang-u/tone-dict-uk

Kasper W. Sentiment Analysis for Hotel Reviews / Walter Kasper, Mihaela Vela. – Proceedings of the Computational Linguistics-Applications Conference. – Jachranka, Poland: Polskie Towarzystwo Informatyczne, Katowice, 10/2011. – P. 45–52.

Kan D. Rule-based approach to sentiment analysis at ROMIP 2011 / Dmitry Kan. URL: http://www.slideshare. net/dmitrykan/rule-based-approach-to-sentiment-analysisatromip- 2011

Moilanen K. Multi-entity Sentiment Scoring / Karo Moilanen, Stephen Pulman. – Proceedings of Recent Advances in Natural Language Processing (RANLP 2009). – Borovets, Bulgaria, September 14–16 2009. – P. 258–263.

Jonathan Herzig. Unlocking Compositional Generalization in Pre-trained Models Using Intermediate Representations / Jonathan Herzig, Peter Shaw, Ming-Wei Chang, Kelvin Guu, Panupong Pasupat, Yuan Zhang. // Cornell University. URL: https://arxiv.org/abs/2104.07478

Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // Cornell University. URL: https://arxiv.org/abs/1810.04805

Peter Shaw, Ming-Wei Chang, Panupong Pasupat, Kristina Toutanova. Compositional Generalization and Natural Language Variation: Can a Semantic Parsing Approach Handle Both? // Cornell University. URL: https://arxiv.org/abs/2010.12725

##submission.downloads##

Опубліковано

2021-07-02