Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

怎样对多人对话音频,进行说话人区分? #2058

Closed
BeyondLightYear opened this issue Jun 21, 2022 · 3 comments
Closed

怎样对多人对话音频,进行说话人区分? #2058

BeyondLightYear opened this issue Jun 21, 2022 · 3 comments
Assignees
Labels

Comments

@BeyondLightYear
Copy link

对多人对话的音频,想区分不同的人,在哪个时间区间说了什么话。该使用语音分类还是声纹识别呢?如何实现呢?谢谢。

@yt605155624
Copy link
Collaborator

SV + ASR

@BeyondLightYear
Copy link
Author

SV + ASR

多谢多谢!尝试了一下,方案是:
1 切分语音片段 --> 2 声纹识别(比较切片的声纹 区分不同的说话人 但比较耗时) --> 3 结合语音片段 和 整个音频的asr结果

又有了新问题:
1 不能很好的分割音频片段(即:一个片段只包含一个人的语音)
2 对电话录音,声纹识别的效果似乎不太好(2人以上的对话 处理起来也很耗时)
3 asr的识别结果(无时间戳) 和 音频片段无法很好对应起来
麻烦多多指点一下,我的方案不合理的部分,或者能更具体的说一下咱们paddle的方案吗?
万分感谢!

@SmileGoat
Copy link
Contributor

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/ami/sd0 speaker diarization,区分不同的说话人,
#1850 可以看下这个pr,time stamp已经添加。所以结合起来做。ps 电话录音,看具体是什么问题,杂音是否很多,还耗时在哪里,都可以说一下。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

4 participants