Вплив розміру кадру на розпізнавання емоції за мовленням

Автор(и)

DOI:

https://doi.org/10.30837/bi.2023.1(99).06

Ключові слова:

АУДІО, ЕМОЦІЇ, КАДР, МАШИННЕ НАВЧАННЯ, НЕЙРОННІ МЕРЕЖІ, РОЗПІЗНАВАННЯ, PYTHON, TENSORFLOW

Анотація

У задачі розпізнавання емоції за мовленням, як і у більшості задач машинного навчання розпізнавання за звуком, використовується так званий фреймінг. Це процес поділу вихідного аудіосигналу на кадри певного розміру, кожен з яких оброблюється окремо. У цій статті представлено порівняння впливу розміру кадрів на результат розпізнавання емоції на прикладі CNN мережі. Для експериментів використовувався набір CREMA-D із аугментаціями, використовуючи додавання шуму, розтягування у часі та зміну висоти тону. В ході досліджень вдалося досягти точності розпізнавання в 98,8% із використанням динамічного розміру кадру.

Біографії авторів

Д.С. Суворов, Харківський національний університет радіоелектроніки

Харківський національний університет радіоелектроніки

І.В. Афанасьєва, Харківський національний університет радіоелектроніки

Харківський національний університет радіоелектроніки

К.Г. Онищенко, Харківський національний університет радіоелектроніки

Харківський національний університет радіоелектроніки

О.В. Калиниченко, Харківський національний університет радіоелектроніки

Харківський національний університет радіоелектроніки

Посилання

What is speech emotion recognition? – klu. Design, Deploy, and Optimize LLM Apps with Klu – Klu.ai. URL: https://klu.ai/glossary/speech-emotion-recognition (дата звернення: 13.04.2024).

Bevor Sie zu YouTube weitergehen. URL: https://www.youtube.com/@ValerioVelardoTheSoundofAI (дата звернення: 06.03.2024).

Valerio Velardo - The Sound of AI. Understanding audio signals for machine learning, 2020. YouTube. URL: https://www.youtube.com/watch?v=daB9naGBVv4 (дата звернення: 21.03.2024).

Windowing signals – telecommunication engineering. Telecommunication Engineering – My WordPress Blog. URL: https://telecommunicationengineering.softecks.in/535/ (дата звернення: 20.05.2024).

Valerio Velardo - The Sound of AI. Types of audio features for machine learning, 2020. YouTube. URL: https://www.youtube.com/watch?v=ZZ9u1vUtcIA (дата звернення: 03.04.2024).

Valerio Velardo - The Sound of AI. Short-Time fourier transform explained easily, 2020. YouTube. URL: https://www.youtube.com/watch?v=-Yxj3yfvY-4 (дата звернення: 20.05.2024).

Mel. Simon Fraser University. URL: https://www.sfu.ca/sonic-studio-webdav/handbook/Mel.html (дата звернення: 27.04.2024).

Minard A. Psychoacoustics: understanding the listening experience. Ansys Blog. URL: https://www.ansys.com/blog/understanding-psychoacoustics/ (дата звернення: 11.03.2024).

GitHub - cheyneycomputerscience/crema-d: crowd sourced emotional multimodal actors dataset (CREMA-D). GitHub. URL: https://github.com/CheyneyComputerScience/CREMA-D (дата звернення: 17.05.2024).

Basic CNN architecture: explaining 5 layers of convolutional neural network | upgrad blog. upGrad blog. URL: https://www.upgrad.com/blog/basic-cnn-architecture/ (дата звернення: 09.02.2024).

Emotional speech recognition using deep neural networks. PubMed Central (PMC). URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8877219/ (дата звернення: 26.05.2024).

##submission.downloads##

Опубліковано

2023-12-29