Skip to content

Latest commit

 

History

History
21 lines (18 loc) · 1.26 KB

README_cn.md

File metadata and controls

21 lines (18 loc) · 1.26 KB

PaddleSpeech 语音应用 Demo

(简体中文|English)

该目录包含基于 PaddleSpeech 开发的不同场景的语音应用 Demo:

  • 声音检索 - 海量音频相似性检索。
  • 声音分类 - 基于 AudioSet 的 527 类标签的音频多标签分类。
  • 视频字幕生成 - 识别视频中语音的文本,并进行文本后处理。
  • 元宇宙 - 基于语音合成的 2D 增强现实。
  • 标点恢复 - 通常作为语音识别的文本后处理任务,为一段无标点的纯文本添加相应的标点符号。
  • 语音识别 - 识别一段音频中包含的语音文字。
  • 语音服务 - 离线语音服务,包括ASR、TTS、CLS等。
  • 流式语音识别服务 - 流式输入语音数据流识别音频中的文字。
  • 流式语音合成服务 - 根据待合成文本流式生成合成音频数据流。
  • 语音翻译 - 实时识别音频中的语言,并同时翻译成目标语言。
  • 会说话的故事书 - 基于 OCR 和语音合成的会说话的故事书。
  • 个性化语音合成 - 基于 FastSpeech2 模型的个性化语音合成。
  • 语音合成 - 基于给定的文本生成语音音频。
  • 自监督预训练模型 - 基于wav2vec2的语音特征提取和语音识别。
  • Whisper - 基于Whisper模型的语音识别与翻译。