Аналіз проблематики виявлення трендів громадської думки в україномовних дописах засобами кластеризації та нейронних мереж

Автор(и)

DOI:

https://doi.org/10.30837/bi.2025.1(102).04

Ключові слова:

ТРЕНДИ ГРОМАДСЬКОЇ ДУМКИ, СОЦІАЛЬНІ МЕРЕЖІ, ОБРОБКА ПРИРОДНЬОЇ МОВИ, ВЕКТОРИЗАЦІЯ ТЕКСТУ, КЛАСТЕРИЗАЦІЯ, НЕЙРОННІ МЕРЕЖІ

Анотація

У даному дослідженні застосовано гібридний підхід до кластеризації, що поєднує алгоритми DBSCAN та K-means для аналізу векторизованих україномовних дописів у соціальних мережах з метою виявлення трендів громадської думки. Методологія базується на багатомовній моделі векторизації тексту, побудованій на основі нейронної мережі, яка дозволяє ефективно відображати семантичний зміст повідомлень. Експерименти, проведені на корпусі з 90 українськомовних дописів (зібраних у період березень–травень 2025 року), дозволили виокремити шість основних тематичних кластерів, що відображають ключові напрями обговорень. Результати дослідження підтверджують ефективність запропонованого методу для аналізу трендів у соціальних медіа та його практичну цінність для моніторингу громадської думки

Біографії авторів

Р.О. Линник, Національний університет «Львівська політехніка»

НУ «Львівська політехніка», м. Львів, Україна

В.А. Висоцька, Національний університет «Львівська політехніка»

НУ «Львівська політехніка», м. Львів, Україна

Посилання

Kapoor K. K., Tamilmani K., Rana N. P., Patil P., Dwivedi Y. K., Nerur S. Advances in social media research: past, present and future // Information Systems Frontiers. – 2018. – Vol. 20, No. 3. – P. 531–558. – DOI: https://doi.org/10.1007/s10796-017-9810-y (дата звернення: 13.04.2025)..

Petukhova A., Matos-Carvalho J. P., Fachada N. Text clustering with large language model embeddings // International Journal of Cognitive Computing in Engineering. – 2024. – DOI: https://doi.org/10.1016/j.ijcce.2024.11.004 (дата звернення: 13.04.2025).

Snowflake Inc. Vector Embeddings // Snowflake Documentation. – Режим доступу: https://docs.snowflake.com/en/guides/ai-ml/llm/vector-embeddings. – Дата звернення: 19.05.2025.

Cao H. Recent advances in universal text embeddings: A comprehensive review of top-performing methods on the MTEB Benchmark [Електронний ресурс] // arXiv preprint, 2024. – arXiv:2406.01067. – Режим доступу: https://arxiv.org/abs/2406.01067 (дата звернення: 16.04.2025).

Wang L., Yang N., Huang X., Yang L., Majumder R., Wei F. Multilingual-E5 Text Embeddings: A Technical Report [Електронний ресурс] // Hugging Face. – 2024. – Режим доступу: https://huggingface.co/intfloat/multilingual-e5-large-instruct (дата звернення: 17.04.2025).

Devins J. Multilingual vector search with the E5 embedding model [Електронний ресурс] // Elastic Search Labs Blog. – 12.09.2023. – Режим доступу: https://elastic.co/search-labs/blog/multilingual-vector-search-e5-embedding-model (дата звернення: 11.05.2025).

Nazeri S. Comparing the state-of-the-art clustering algorithms [Електронний ресурс] // Medium. – 19.07.2023. – Режим доступу: https://medium.com/@sina.nazeri/comparing-the-state-of-the-art-clustering-algorithms-1e65a08157a1 (дата звернення: 12.04.2025).

Majhi S. K., Biswal S. Optimal cluster analysis using hybrid K-Means and Ant Lion Optimizer // Karbala International Journal of Modern Science. – 2018. – Vol. 4, No. 3. – P. 347–360. – DOI: https://doi.org/10.1016/j.kijoms.2018.09.001

Satpati S. Clustering by DBSCAN (Density-Based Spatial Clustering of Applications with Noise) Clearly Explained with Coding in Python [Електронний ресурс] // Medium. – 07.12.2023. – Режим доступу: https://medium.com/@satpatishrimanta/clustering-by-dbscan-density-based-spatial-clustering-of-applications-with-noise-clearly-f93c5cf27f06 (дата звернення: 13.05.2025).

Bansal A. Optimizing customer segmentation for enhanced recommendation systems through comparative analysis of K-Means, Hierarchical Clustering, and DBSCAN algorithms [Електронний ресурс] // ResearchGate. – Травень 2023. – Режим доступу: https://www.researchgate.net/publication/384604526 (дата звернення: 12.04.2025).

Pishro A. A., Zhang S., L'Hostis A., Liu Y., Hu Q., Hejazi F., Shahpasand M., Rahman A., Oueslati A., Zhang Z. Machine learning-aided hybrid technique for dynamics of rail transit stations classification: a case study [Електронний ресурс] // Scientific Reports. – 2024. – Vol. 14. – Article number: 23929. – Режим доступу: https://doi.org/10.1038/s41598-024-23929-2 (дата звернення: 11.05.2025).

Mullin T. DBSCAN Parameter Estimation Using Python [Електронний ресурс] // Medium. – 10.07.2020. – Режим доступу: https://medium.com/@tarammullin/dbscan-parameter-estimation-ff8330e3a3bd (дата звернення: 19.05.2025).

Sefidian A. M. How to determine epsilon and MinPts parameters of DBSCAN clustering [Електронний ресурс] // sefidian.com. – 18.12.2022. – Режим доступу: https://sefidian.com/2022/12/18/how-to-determine-epsilon-and-minpts-parameters-of-dbscan-clustering (дата звернення: 22.04.2025).

Perafán-López J. C., Ferrer-Gregory V. L., Nieto-Londoño C., Sierra-Pérez J. Performance analysis and architecture of a clustering hybrid algorithm called FA+GA-DBSCAN using artificial datasets [Електронний ресурс] // Entropy. – 2022. – Vol. 24, No. 6. – Article number: 875. – Режим доступу: https://doi.org/10.3390/e24070875 (дата звернення: 23.04.2025).

Jamin R. J., Talukder M. A. R., Malakar P., Kabir M. M., Nur K., Mridha M. F. Recent advancements and challenges of NLP-based sentiment analysis: A state-of-the-art review [Електронний ресурс] // Natural Language Processing Journal. – 2024. – Vol. 6. – Article number: 100059. – Режим доступу: https://doi.org/10.1016/j.nlpj.2024.100059 (дата звернення: 19.05.2025).

Stroud R. S., Al-Saffar A., Carter M., Moody M. P., Pedrazzini S., Wenman M. R. Testing outlier detection algorithms for identifying early stage solute clusters in atom probe tomography [Електронний ресурс] // Microscopy and Microanalysis. – 2024. – Vol. 30. – P. 853–865. – DOI: https://doi.org/10.1093/mam/ozae076 (дата звернення: 19.05.2025).

Raman R., Nair V. K., Nedungadi P., Sahu A. K., Kowalski R., Ramanathan S., Achuthan K. Fake news research trends, linkages to generative artificial intelligence and sustainable development goals [Електронний ресурс] // Heliyon. – 2024. – Vol. 10. – Article number: e24727. – Режим доступу: https://doi.org/10.1016/j.heliyon.2024.e24727 (дата звернення: 25.04.2025).

Han M., Zhou Y. Exploring trends and emerging topics in oceanography (1992–2021) using deep learning-based topic modeling and cluster analysis [Електронний ресурс] // npj Ocean Sustainability. – 2024. – Article number: 97. – Режим доступу: https://doi.org/10.1038/s44183-024-00097-z (дата звернення: 28.05.2025).

##submission.downloads##

Опубліковано

2025-06-30