Нейромережева технологія багатомовної класифікації електронних текстів
DOI:
https://doi.org/10.30837/bi.2021.2(97).01Ключові слова:
ВЕКТОРИЗАЦІЯ БАГАТОМОВНИХ ТЕКСТІВ, МОДЕЛЬ XLM-RoBerta, НЕЙРОМЕРЕЖЕВИЙ КЛАСИФІКАТОР БАГАТОМОВНИХ ТЕКСТІВ, МЕРЕЖА LSTM, СЕРВЕР ОБРОБКИ ЗАПИТІВАнотація
Статтю присвячено розробці технології побудови багатомовних класифікаторів, яка основана на нейро-
мережевій обробці векторного подання текстів, згенерованого за допомогою моделі XLM-RoBerta. Розглянуто
переваги використання для векторизації текстів рекуррентної нейронної мережі на основі трансформеру моделі XLM-RoBerta. Наведено схему взаємодії розробленого класифікатору на основі мережі LSTM з моделлю векторизації текстів. Запропоноване архітектурне рішення обумовлено необхідністю оптимізації витрат ресурсів та їх економії під час використання моделі у релізному середовищі за допомогою розробленого веб-сервісу. Здійснено програмну реалізацію запропонованої технології класифікації. Програмний додаток реалізовано засобами мови програмування Python за допомогою бібліотеки для машинного навчання TensorFlow та комплексної платформи Tensorflow Extended. Серверну частину реалізовано з використанням фреймворку aiohttp. Експериментальне дослідження розробленого класифікатору текстів здійснено з використанням News Category Dataset, що представляє собою багатомовні заголовки текстових новин. Застосування запропонованої технології класифікації характеризується незначним погіршенням показників якості під час зміни мови, що дозволяє розробляти багатомовні моделі без втрати їх продуктивності при зміні мови вхідних даних. Результати тестування підтверджують ефективність наведеного підходу.
Посилання
Чалая Л.Э. Метод двухэтапной классификации электронных текстов // Л.Э. Чалая, С.Г. Удовенко, Е.С. Кушвид // Біоніка интелекту. – 2016. – № 2 (87). – С.16 – 23.
Інформаційні технології та системи: монографія / Удовенко С.Г. Розділ 8. Класифікація електронних науково-технічних текстів в інформаційно-пошукових системах// С.Г. Удовенко, Л.Е. Чала. – Х.: ФОП Бровін О.В., 2019. – С.108 – 123.
Yang Y., Cer D., Amin A., Guo M., Law J., Constant N.,Hernandez Abrego G., Yuan S., Tar C., Yun-Hsuan S., Strope
B., Kurzweil R. Multilingual Universal Sentence Encoder for Semantic Retrieval, 9 Jul, 2019, URL: https://arxiv.org/pdf/1907.04307.pdf (Last accessed: 15.05.2021).
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding, 11 Oct, 2018, URL: https://arxiv.org/pdf/1810.04805.pdf (Last accessed: 15.05.2021).
Stoyanov V., Necip F. A., Under the hood: Multilingual embeddings, January 24, 2018, URL: https://ai.facebook.com/blog/under-the-hood-multilingual-embeddings/ (Last accessed: 15.05.2021).
Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser L., Polosukhin I., Attention Is All You Need, 12 Jun, 2017, URL: https://arxiv.org/pdf/1706.03762.pdf (Last accessed: 15.05.2021).
Alammar J. The Illustrated Transformer, 27 Jun, 2018, URL: http://jalammar.github.io/illustrated-transformer/ (Last accessed:15.05.2021).
Conneau A., Khandelwal K., Goyal N., Chaudhary V., Wenzek G., Guzmán F., Grave E., Ott M., Zettlemoyer L., Stoyanov V. Unsupervised Cross-lingual Representation Learning at Scale, 8 Apr, 2020, URL: https://arxiv.org/pdf/1911.02116.pdf (Last accessed: 15.05.2021).
Tay Y., Dehghani M., Gupta J., Bahri D., Aribandi V., Qin Z., Metzler D. Are Pre-trained Convolutions Better than Pre-trained Transformers? 7 May, 2021, URL: https://arxiv.org/pdf/2105.03322.pdf (Last accessed: 15.05.2021).
Olah C. LSTM - мережі довгої короткострокової пам’яті, 21 червень, 2017, URL: https://habr.com/ru/company/wunderfund/blog/331310/ (Last accessed: 15.05.2021).
Misra R. News Category Dataset, 2 Dec, 2018, URL: https://www.kaggle.com/rmisra/news-category-dataset (Last accessed: 15.05.2021).