Skip to content

Latest commit

 

History

History
166 lines (131 loc) · 10.8 KB

lib-ai-sr-speech-recognition.md

File metadata and controls

166 lines (131 loc) · 10.8 KB
title tags created modified
lib-ai-sr-speech-recognition
ai
speech-recognition
2023-02-07 07:16:03 UTC
2023-02-07 09:22:03 UTC

lib-ai-sr-speech-recognition

guide

sr-products

speech-to-text

Whisper

more-asr

text-to-speech

discuss

  • 现在最好的语音转文本大模型还是 Whisper 吗?

  • https://x.com/tualatrix/status/1830467181504520202

  • 中文的话, 应该是 SenseVoice MIT license, 可以自己部署.

    • 英文的话, 应该还是 Whisper
  • whisper 在中文识别方面并不好用,可能用的语料库是YouTube的居多,在音源不清晰时会出现幻觉,中文识别还是国内的好用些,速度和准确度方面都要好

  • 阿里通义语音团队开源了语音基座大模型:SenseVoice和CosyVoice,语音方向卷起来了。

  • https://x.com/leeoxiang/status/1809174787861925933

    • SenseVoice多语言音频理解大模型:多语言语音识别在中文和粤语上相比Whisper相对提升+50%,推理速度快15倍,并且支持SOTA的情绪识别。
    • CosyVoice多语言音频生成大模型:支持多语言、音色和情感控制,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。
    • https://github.com/FunAudioLLM/SenseVoice /MIT/python
    • https://github.com/FunAudioLLM/CosyVoice /apache2/python
  • real-time in-browser speech recognition with OpenAI Whisper

  • https://x.com/xenovacom/status/1799110540700078422

  • here is a whisper example on Android

  • This uses Transformers.js (+ ONNX Runtime Web) vs. @fleetwood___ 's Ratchet library. His version would certainly be able to run in real-time too though... and is still on his TODO list I'm sure

  • The universal translator: real-time, multilingual communication like in star trek

  • #声音clone产品推荐 开源的实现:

  • https://twitter.com/leeoxiang/status/1766700987627327683

  • 商业的产品:

    • 1、ElevenLab:https://elevenlabs.io 商业实现中支持语言种类最多的,支持 瞬时 clone,综合效果最好的一个产品,我是 22$每个月的订阅用户,已经在内部的配音产品上用上。
    • 2、Reecho:https://reecho.ai 中国团队,支持长音频声音 clone 和瞬时声音 clone,据说是和火山引擎的声音 clone 技术是同源的。
    • 3、自得语音:https://zideai.com 中国团队,支持瞬时声音 clone 和声音定制,还没测试。
  • 瞬时克隆剪映也推送出了。类似 openvoice

    • 剪映这个限制很多,只能 clone自己的的。
    • 思路打开啊。你先克隆出志玲的语音,然后把剪映要你朗读的内容提前克隆出来,点朗读,然后不就也有了么,剪映主要语音加字幕比较方便。我把王者李白的声音克隆在剪映里了,志玲的训练好了,数据不小心丢了,懒得在去剪视频弄数据喂了
  • 目前试过瞬时克隆的 还没有发现特别像的效果 11lab最大优点是稳定性很好 而且情绪调节做得不错 这一点比gpt- sovits好一些

  • 用过 GPT-SoVITS 和 ElevenLab,目前对于克隆中文声音效果最好的是 GPT-SoVITS,非中文是 ElevenLab

  • OpenAI 推出的开源免费 Whisper 在语音识别领域(ASR)可以说无出其右,

  • https://twitter.com/Barret_China/status/1729521472669151516

    • 不过它有一个较大的局限性,就是无法进行说话人分类(Speaker diarization),尤其是在重叠语音检测(Overlapped speech detection)方面,Whisper 在训练过程中只识别了一个声音,同时将其他声音视为背景噪声。
    • 社区有一个发展了多年的音频处理工具包,pyannote-audio,它具备非常强大的音频分析、处理、识别和分类能力,在多人同时讲话的时候,也可以很准确地区分说话者内容,只不过它的 ASR 能力还是比不过 Whisper。
    • 有人想到结合两者的能力,并做了一个工程化的实践
  • https://twitter.com/Barret_China/status/1733060966940922194

  • 现在的视频翻译突然间火了,推友们,可以告诉我使用了什么技术吗?

  • https://twitter.com/lxfater/status/1718639301813215543

  • VideoReTalking:让视频中的人物的嘴型与输入的声音同步。

  • HeyGen - AI Spokesperson Video Creator