怎样对多人对话音频，进行说话人区分？ #2058

BeyondLightYear · 2022-06-21T08:03:36Z

对多人对话的音频，想区分不同的人，在哪个时间区间说了什么话。该使用语音分类还是声纹识别呢？如何实现呢？谢谢。

yt605155624 · 2022-06-27T10:49:45Z

SV + ASR

BeyondLightYear · 2022-07-28T02:34:24Z

SV + ASR

多谢多谢！尝试了一下，方案是：
1 切分语音片段 --> 2 声纹识别(比较切片的声纹区分不同的说话人但比较耗时) --> 3 结合语音片段和整个音频的asr结果

又有了新问题：
1 不能很好的分割音频片段（即：一个片段只包含一个人的语音）
2 对电话录音，声纹识别的效果似乎不太好（2人以上的对话处理起来也很耗时）
3 asr的识别结果(无时间戳) 和音频片段无法很好对应起来
麻烦多多指点一下，我的方案不合理的部分，或者能更具体的说一下咱们paddle的方案吗？
万分感谢！

SmileGoat · 2022-07-28T03:57:21Z

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/ami/sd0 speaker diarization，区分不同的说话人，
#1850 可以看下这个pr，time stamp已经添加。所以结合起来做。ps 电话录音，看具体是什么问题，杂音是否很多，还耗时在哪里，都可以说一下。

yt605155624 added the Question label Jun 29, 2022

yt605155624 assigned zh794390558 Jul 7, 2022

yt605155624 assigned SmileGoat Jul 28, 2022

yt605155624 closed this as completed Sep 7, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

怎样对多人对话音频，进行说话人区分？ #2058

怎样对多人对话音频，进行说话人区分？ #2058

BeyondLightYear commented Jun 21, 2022

yt605155624 commented Jun 27, 2022

BeyondLightYear commented Jul 28, 2022

SmileGoat commented Jul 28, 2022

怎样对多人对话音频，进行说话人区分？ #2058

怎样对多人对话音频，进行说话人区分？ #2058

Comments

BeyondLightYear commented Jun 21, 2022

yt605155624 commented Jun 27, 2022

BeyondLightYear commented Jul 28, 2022

SmileGoat commented Jul 28, 2022