Skip to content

lablapse/speech_enhancement

Repository files navigation

Avaliação de Modelos para Melhoramento de Sinais de Fala Usando o Conjunto de Dados NTCD-TIMIT

Autores: Augusto Cesar Becker, Gabriel Saatkamp Lazaretti, Rafael Rodrigo Pertum, Eduardo Vinícius Kuhn e Rui Seara

Dataset: NTCD-TIMIT

Resumo

Este trabalho visa avaliar o desempenho de modelos obtidos a partir das arquiteturas desenvolvidas por Park et al. [1] e Zhang et al. [2] para o melhoramento de sinais de fala. Especificamente, tais arquiteturas são aqui implementadas usando linguagem Python e a biblioteca TensorFlow, treinadas no mesmo conjunto de dados (público) e com hiperparâmetros adequadamente escolhidos, e os modelos obtidos são avaliados através de métricas padronizadas. Resultados de simulação mostram que ambos os modelos melhoraram a qualidade e inteligibilidade dos sinais de fala processados, independentemente do valor da SNR e das características do ruído.

Requisitos

  • Python 3.11.0
  • pip install -r utils/requirements.txt

Referências

[1] S. R. Park and J. Lee, “A fully convolutional neural network for speech enhancement,” vol. 1, pp. 1–6, Sep. 2016. arXiv: 1609.07132 [cs.LG].

[2] X. Zhang et al., “Low-delay speech enhancement using perceptually motivated target and loss,” in Proc. Int. Speech Communication Assoc. (INTERSPEECH), Brno, Czechia, Sep. 2021, pp. 2826–2830.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published