Набір даних українських новин як бенчмарк для класифікації текстів
DOI:
https://doi.org/10.30837/bi.2026.1(104).09Ключові слова:
ОБРОБКА УКРАЇНСЬКОЇ МОВИ, КЛАСИФІКАЦІЯ ТЕКСТУ, ТРАНСФОРМЕРИ, ТЕКСТОВИЙ НАБІР ДАНИХАнотація
У статті розглянуто задачу створення україномовних наборів даних для класифікації текстів. Запропоновано підхід для створення простого набору даних. Також створено корпус українських новин, придатний для порівняльного оцінювання моделей. На цьому наборі даних проведено бенчмаркінг сучасних моделей на основі трансформерів (mBERT, Slavic BERT, ukr-RoBERTa, ukr-ELECTRA, XLM-R) та базової моделі NB-SVM у різних режимах навчання. Результати показують, що ukr-RoBERTa, ukr-ELECTRA та XLM-R демонструють найвищу якість. XLM-R, як правило, краще працює з об’ємними текстами, тоді як ukr-RoBERTa – з більш короткими послідовностями
Посилання
https://www.kaggle.com/c/ukrainian-news-classification/
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17). Curran Associates Inc., Red Hook, NY, USA, 6000–6010.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, & Kristina Toutanova. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
Vitalii Radchenko. We Trained the Ukrainian Language Model. https://youscan.io/blog/ukrainian-language-model/
Stefan Schweter, Ukrainian ELECTRA model https://github.com/stefanit/ukrainian-electra https://doi.org/10.5281/zenodo.4267880
Babenko, Dmytro. Determining sentiment and important properties of Ukrainian language user reviews : Master Thesis : manuscript rights / Dmytro Babenko ; Supervisor Vsevolod Dyomkin ; Ukrainian Catholic University, Department of Computer Sciences. – Lviv : [s.n.], 2020. – 35 p. : ill.
Babenko, D., & Dyomkin, V. (2019). Determining Sentiment and Important Properties of Ukrainian Language User Reviews. http://ceur-ws.org/Vol-2566/MS-AMLV-2019-paper39-p106.pdf
NER annotation corpus https://lang.org.ua/en/corpora/
Alexis Conneau and Kartikay Khandelwal and Naman Goyal and Vishrav Chaudhary and Guillaume Wenzek and Francisco Guzm´an and Edouard Grave and Myle Ott and Luke Zettlemoyer and Veselin Stoyanov (2019). Unsupervised Cross-lingual Representation Learning at Scale. CoRR, abs/1911.02116.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating Cross-lingual Sentence Representations. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics.
https://www.eurointegration.com.ua/
Shen, Ying et al. “Improving Medical Short Text Classification with Semantic Expansion Using Word-Cluster Embedding.” ArXiv abs/1812.01885 (2018): n. pag.
Zhang, Yin & Jin, Rong & Zhou, Zhi-Hua. (2010). Understanding bag-of-words model: A statistical framework. International Journal of Machine Learning and Cybernetics. 43-52. https://doi.org/10.1007/s13042-010-0001-0
Kaufman, Shachar & Rosset, Saharon & Perlich, Claudia. (2011). Leakage in Data Mining: Formulation, Detection, and Avoidance. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6. 556-563. https://doi.org/10.1145/2020408.2020496
Peter Norvig. How to Write a Spelling Corrector. url: http://norvig.com/spellcorrect.html.
Shuyo, N. (2010). Language Detection Library for Java.
(2011) TF–IDF. In: Sammut C., Webb G.I. (eds) Encyclopedia of Machine Learning. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-30164-8.
Arkhipov, A. (2019). Tuning Multilingual Transformers for Language-Specific Named Entity Recognition. In Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing (pp. 89–93). Association for Computational Linguistics.
Wang, C. (2012). Baselines and Bigrams: Simple, Good Sentiment and Topic Classification. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) (pp. 90–94). Association for Computational Linguistics.
Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and Luke Zettlemoyer and Veselin Stoyanov (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR, abs/1907.11692.
Ortiz Su´arez, P., Sagot, B., & Romary, L. (2019). Asynchronous Pipeline for Processing Huge Corpora on Medium to Low Resource Infrastructures. In 7thWorkshop on the Challenges in the Management of Large Corpora (CMLC-7). Leibniz-Institut f¨ur Deutsche Sprache.
Kevin Clark, Minh-Thang Luong, Quoc V. Le, & Christopher D. Manning (2020). ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. In International Conference on Learning Representations