-
Notifications
You must be signed in to change notification settings - Fork 1.8k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
TTS Finetune / TTS3对multi-speaker数据进行微调 #2442
Comments
latest MFA (from conda) 也没用过,不知道生成的音素是否有不对齐的地方 |
非常感谢您的回复!我已经check过了预处理的MEL的长度 看traceback是在attention mask broadcast的时候挂掉的,问题出现在PaddleSpeech框架内部(paddlespeech/t2s/modules/masked_fill.py#44),暂时还没有定位到是哪里的问题。 我接下来会试着用 |
我发现在报错出现前已经经过了数次的Evaluate,注意到代码中evaluator的trigger是per-epoch的,应该是run了几个epoch都正常,但是突然报错,有些confuse |
您好,我尝试使用aisheel3/tts3 进行finetune,但是仍然会遇到此bug,不知道应该如何定位、解决问题,您有什么建议吗?
|
建议先跑通我们的代码,熟悉数据预处理、训练流程,再自己改输入,使用 paddle 稳定版(如 2.3.1) |
好的,我尝试一下 |
我用的paddle都是pip源安装的,Example代码是可以跑通的,还是没有定位到问题在哪里,不过我尝试修改 try:
update()
except:
print("[warning] bug")
continue 倒是也能训练了,听着训练结果感觉还ok,提示bug的频率不高,没有连着出现3+ bugs的情况。 |
paddlespeech建议用哪个版本的? |
+1 |
|
我也是遇到这个问题,在9900k+3090的电脑上没问题,换到13900k+4090的电脑上训练就是这样,bug一大堆,感觉是有一半的语料都没有练进去,最后有解决吗? |
我遇到了一模一样的问题 |
朋友们,换成这个吧,贼爽,https://github.com/Plachtaa/VITS-fast-fine-tuning |
您好,我在使用
examples/other/tts_finetune/tts3
(commit_id 863609) finetune自己的数据集时遇到了问题:example只提供了在csmsc_mini single-speaker上finetune的tutorial,但是对于tune on multi speaker dataset仍然是不可用的
为了finetune on multi speaker dataset,我尝试通过MFA align来获取音素的duration,但使用
./tools/montreal-forced-aligner/bin/mfa_align
时会有一部分文件无法生成TextGrid结果,查看log显示:而后,我尝试使用latest MFA (from conda)与repo中提供的字典和AM提取音素duration,可正常生成结果,但是在训练一些step后会产生维度匹配错误,我想咨询下我的处理流程是否有问题?为什么在训练过程中会有bug?如果想保证训练过程的正常进行,应如何修改?
The text was updated successfully, but these errors were encountered: