Покращення якості розділення музичних сигналів в умовах наявності артефактів та обмеженої кількості тренувальних даних з використанням маскування функції втрат
DOI:
https://doi.org/10.30837/bi.2025.2(103).05Ключові слова:
РОЗДІЛЕННЯ МУЗИЧНИХ СИГНАЛІВ, МАСКУВАННЯ ФУНКЦІЇ ВТРАТ, ОЦІНКА СПРИЙМАНОЇ ЯКОСТІ, ОБРОБКА СИГНАЛІВ, МАШИННЕ НАВЧАННЯ, НЕЙРОННІ МЕРЕЖІАнотація
В поточній роботі досліджується ефективність використання підходу маскування функції втрат для тренування моделей розділення музичних сигналів в умовах наявності похибок в даних, зокрема артефактів перетікання. Пропонується стратегія м’якого маскування функції втрат, суть якої полягає в присвоєнні ваг значенням функції втрат у батчі обернено пропорційно до їхньої величини, і порівнюється з підходом жорсткого маскування, де ваги обчислюються як бінарні маски на основі того, чи перевищує значення функції втрат певний пороговий рівень. Проводиться дослідження щодо того, чи дає підхід м’якого маскування функції втрат кращі результати порівняно з жорстким маскуванням в умовах обмеженої кількості доступних навчальних даних. Результати засвідчують, що в умовах обмеженої кількості тренувальних даних, за умови наявності в них артефактів перетікання, підхід м’якого маскування дозволяє отримати кращі результати за підхід жорсткого маскування зокрема для виокремлення вокалу. Пропонується також метод оцінки результатів розділення заснований на апроксимації метрики MUSHRA з використанням нейронної мережі, задля врахування як об’єктивної так і суб’єктивної компоненти оцінки якості розділення сигналів системою.
Посилання
Fabbro G. The Sound Demixing Challenge 2023 – Music Demixing Track / G. Fabbro, S. Uhlich, C.-H. Lai, W. Choi, M. Martinez-Ramírez, W. Liao, I. Gadelha, G. Ramos, E. Hsu, H. Rodrigues, F.-R. Stöter, A. Defossez, Y. Luo, J. Yu, D. Chakraborty, S. Mohanty, R. Solovyev, A. Stempkovskiy, T. Habruseva, Y. Mitsufuji // Transactions of the International Society for Music Information Retrieval. – 2024. – V. 7. – P. 63-84.
Rafii Z. The musdb18 corpus for music separation / Z. Rafii, A. Liutkus, F. Stoter. – 2017.
Manilow E. Cutting music source separation some Slakh: A dataset to study the impact of training data quality and quantity / E. Manilow, G. Wichern, P. Seetharaman, J. Le Roux // Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). – 2019. – P. 45-49.
Pereira I. Moisesdb: A dataset for source separation beyond 4-stems / I. Pereira, F. Araújo, F. Korzeniowski, R. Vogl // preprint arXiv:2307.15913. – 2023. – 8 p.
Kim M. Sound demixing challenge 2023 music demixing track technical report: Tfc-tdf-unet v3 / M. Kim, J. H. Lee, S. Jung // preprint arXiv:2306.09382. – 2023. – 5 p.
Uhlich S. Improving music source separation based on deep neural networks through data augmentation and network blending / S. Uhlich, M. Porcu, F. Giron, M. Enenkl, T. Kemp, N. Takahashi, Y. Mitsufuji // 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2017. – P. 261-265.
Jeon C.-B. Why does music source separation benefit from cacophony? / C.-B. Jeon, G. Wichern, F. G. Germain, J. Le Roux // 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW). – 2024. – P. 873-877.
Gusó E. On loss functions and evaluation metrics for music source separation / E. Gusó, J. Pons, S. Pascual, J. Serrà // 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2022. – P. 306-310.
Vincent E. Performance measurement in blind audio source separation / E. Vincent, R. Gribonval, C. Fevotte // IEEE Transactions on Audio, Speech, and Language Processing. – 2006. – V. 14. – №. 4. – P. 1462-1469.
Le Roux J. Sdr–half-baked or well done? / J. Le Roux, S. Wisdom, H. Erdogan, J. R. Hershey // 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2019. – P. 626-630.
Torcoli M. Objective measures of perceptual audio quality reviewed: An evaluation of their application domain dependence / M. Torcoli, T. Kastner, J. Herre // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2021. – V. 29. – P. 1530-1541.
Choi W. Investigating u-nets with various intermediate blocks for spectrogram-based singing voice separation / W. Choi, M. Kim, J. Chung, D. Lee, S. Jung // preprint arXiv:1912.02591. – 2019. – 8 p.
Kim M. Kuielab-mdx-net: A two-stream neural network for music demixing / M. Kim, W. Choi, J. Chung, D. Lee, S. Jung // preprint arXiv:2111.12203. – 2021. – 7 p.
Mitsufuji Y. Music demixing challenge 2021 / Y. Mitsufuji, G. Fabbro, S. Uhlich, F.-R. Stöter, A. Défossez, M. Kim, W. Choi, C.-Y. Yu, K.-W. Cheuk // Frontiers in Signal Processing. – 2022. – V. 1.
International Telecommunication Union Radiocommunication Sector (ITU-R), BS.1534-3: Method for the subjective assessment of intermediate quality level of audio systems (MUSHRA) / 2015. – URL https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1534-3-201510-I!!PDF-E.pdf.
Stöter F.-R. The 2018 signal separation evaluation campaign / F.-R. Stöter, A. Liutkus, N. Ito // International Conference on Latent Variable Analysis and Signal Separation. Cham: Springer International Publishing. – 2018. – V. 10891. – P. 293-305.
Mittag G. A deep cnn-self-attention model for multidimensional speech quality prediction with crowdsourced datasets / G. Mittag, B. Naderi, A. Chehadi, S. Möller // Proc. Interspeech 2021. – 2021. – P. 2127-2131.