Вплив розміру кадру на розпізнавання емоції за мовленням
DOI:
https://doi.org/10.30837/bi.2023.1(99).06Ключові слова:
АУДІО, ЕМОЦІЇ, КАДР, МАШИННЕ НАВЧАННЯ, НЕЙРОННІ МЕРЕЖІ, РОЗПІЗНАВАННЯ, PYTHON, TENSORFLOWАнотація
У задачі розпізнавання емоції за мовленням, як і у більшості задач машинного навчання розпізнавання за звуком, використовується так званий фреймінг. Це процес поділу вихідного аудіосигналу на кадри певного розміру, кожен з яких оброблюється окремо. У цій статті представлено порівняння впливу розміру кадрів на результат розпізнавання емоції на прикладі CNN мережі. Для експериментів використовувався набір CREMA-D із аугментаціями, використовуючи додавання шуму, розтягування у часі та зміну висоти тону. В ході досліджень вдалося досягти точності розпізнавання в 98,8% із використанням динамічного розміру кадру.
Посилання
What is speech emotion recognition? – klu. Design, Deploy, and Optimize LLM Apps with Klu – Klu.ai. URL: https://klu.ai/glossary/speech-emotion-recognition (дата звернення: 13.04.2024).
Bevor Sie zu YouTube weitergehen. URL: https://www.youtube.com/@ValerioVelardoTheSoundofAI (дата звернення: 06.03.2024).
Valerio Velardo - The Sound of AI. Understanding audio signals for machine learning, 2020. YouTube. URL: https://www.youtube.com/watch?v=daB9naGBVv4 (дата звернення: 21.03.2024).
Windowing signals – telecommunication engineering. Telecommunication Engineering – My WordPress Blog. URL: https://telecommunicationengineering.softecks.in/535/ (дата звернення: 20.05.2024).
Valerio Velardo - The Sound of AI. Types of audio features for machine learning, 2020. YouTube. URL: https://www.youtube.com/watch?v=ZZ9u1vUtcIA (дата звернення: 03.04.2024).
Valerio Velardo - The Sound of AI. Short-Time fourier transform explained easily, 2020. YouTube. URL: https://www.youtube.com/watch?v=-Yxj3yfvY-4 (дата звернення: 20.05.2024).
Mel. Simon Fraser University. URL: https://www.sfu.ca/sonic-studio-webdav/handbook/Mel.html (дата звернення: 27.04.2024).
Minard A. Psychoacoustics: understanding the listening experience. Ansys Blog. URL: https://www.ansys.com/blog/understanding-psychoacoustics/ (дата звернення: 11.03.2024).
GitHub - cheyneycomputerscience/crema-d: crowd sourced emotional multimodal actors dataset (CREMA-D). GitHub. URL: https://github.com/CheyneyComputerScience/CREMA-D (дата звернення: 17.05.2024).
Basic CNN architecture: explaining 5 layers of convolutional neural network | upgrad blog. upGrad blog. URL: https://www.upgrad.com/blog/basic-cnn-architecture/ (дата звернення: 09.02.2024).
Emotional speech recognition using deep neural networks. PubMed Central (PMC). URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8877219/ (дата звернення: 26.05.2024).