Autores: Augusto Cesar Becker, Gabriel Saatkamp Lazaretti, Rafael Rodrigo Pertum, Eduardo Vinícius Kuhn e Rui Seara
Dataset: NTCD-TIMIT
Este trabalho visa avaliar o desempenho de modelos obtidos a partir das arquiteturas desenvolvidas por Park et al. [1] e Zhang et al. [2] para o melhoramento de sinais de fala. Especificamente, tais arquiteturas são aqui implementadas usando linguagem Python e a biblioteca TensorFlow, treinadas no mesmo conjunto de dados (público) e com hiperparâmetros adequadamente escolhidos, e os modelos obtidos são avaliados através de métricas padronizadas. Resultados de simulação mostram que ambos os modelos melhoraram a qualidade e inteligibilidade dos sinais de fala processados, independentemente do valor da SNR e das características do ruído.
- Python 3.11.0
pip install -r utils/requirements.txt
[1] S. R. Park and J. Lee, “A fully convolutional neural network for speech enhancement,” vol. 1, pp. 1–6, Sep. 2016. arXiv: 1609.07132 [cs.LG].
[2] X. Zhang et al., “Low-delay speech enhancement using perceptually motivated target and loss,” in Proc. Int. Speech Communication Assoc. (INTERSPEECH), Brno, Czechia, Sep. 2021, pp. 2826–2830.