A Survey on Neural Audio Codec

A preliminary survey on neural audio codec.

(2023/11) Generative De-Quantization for Neural Speech Codec via Latent Diffusion

[paper] [demo] [code] [Submitted to ICASSP 2024]
(2023/09) FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec

[paper] [demo] [code] [Submitted to ICASSP 2024]
(2023/09) RepCodec: A Speech Representation Codec for Speech Tokenization

[paper] [code]
(2023/08) SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models

[paper] [demo] [code] [disentangle semantic token]
(2023/06) DAC: High-Fidelity Audio Compression with Improved RVQGAN

[paper] [demo] [code] [NeurIPS 2023]
(2023/05) AudioDec: An Open-source Streaming High-fidelity Neural Audio Codec

[paper] [demo] [code] [ICASSP 2023]
(2023/05) HiFi-Codec: Group-residual Vector quantization for High Fidelity Audio Codec

[paper] [code]
(2022/10) High Fidelity Neural Audio Compression

[paper] [demo] [code]
(2021/07) SoundStream: An End-to-End Neural Audio Codec

[paper] [demo]

Evaluation

You can refer to the analyses in AudioDecBenchmark [Github], which include evaluations of different neural codecs in the below aspects:

Reconstruction Quality
Speech Synthesis
Speech Comprehension
Deconstruction of various elements within speech, for example, the inforamtion of speakers, timbre, prosody, etc.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md