A collection of neural vocoders suitable for singing voice synthesis tasks.
English version README_en.md
python process.py --config 配置文件 --num_cpu 并行数量 --strx 1 代表 强制绝对路径 0 代表相对路径
和预处理有关的配置文件项
DataIndexPath: dataX11 # 这个是训练数据 index 的位置预处理会自动生成
valid_set_name: validX # 这个是val index 的名字预处理会自动生成
train_set_name: trainX # 这个是训练的 index 的名字预处理会自动生成
data_input_path: [] # 这个是你的 wav 的输入目录
data_out_path: [] # 这个是你的 npz 的输出目录, 预处理之后的格式是 npz
val_num: 1 # 这个是你要的 val 数量
例子
data_input_path: ['wav/in1','wav/in2'] # 这个是你的wav的输入目录
data_out_path: ['wav/out1','wav/out2'] # 这个是你的npz的输出目录
val_num: 5 # 这个是你要的 val 数量,预处理的时候会自动抽取文件
# 两个列表里面的路径是一一对应的所以说数量要一样
# 然后预处理的时候会扫描全部的 .wav 文件,包括子文件夹的
# 正常情况下只有这三个要改
将预处理脚本替换为process_aug.py 并增添配置项
key_aug: false # 表示训练时不进行增强
aug_min: 0.9 # 最小变调倍数
aug_max: 1.4 # 最大变调倍数
aug_num: 1 # 数据增强倍数
即可,注意数据增强可能会损伤音质!
增加配置项,注意使用在线数据增强请使用process.py 脚本,否则会造成离线增强与在线增强叠加
key_aug: true # 表示在训练时进行增强
key_aug_prob: 0.5 # 增强概率
aug_min: 0.9 # 最小变调倍数
aug_max: 1.4 # 最大变调倍数
注意数据增强可能会损伤音质!
python [train.py](train.py) --config 配置文件 --exp_name ckpt名字 --work_dir 工作目录(可选)
python [export_ckpt.py](export_ckpt.py) --ckpt_path ckpt路径 --save_path 导出的ckpt路径 --work_dir 工作目录(可选)
因为 pytorch-lightning 的问题所以说在 GAN 训练过程中实际的步数是它显示步数的一半
如果你需要微调社区声码器请使用ft_hifigan.yaml 配置文件,并用 'finetune_ckpt_path' 选项指定权重路径
如何使用微调功能建议参考 openvpi/diffsinger 项目文档
少量步数的微调可以冻结 mpd 模块
建议不要用 bf16 可能会产生音质问题
少量数据差不多 2000 步就可以微调完成
以下是你需要根据自己的数据集修改的配置项
data_input_path: [] # 这个列表 是你原始wav文件的路径
data_out_path: [] # 此列表 预处理输出的npz文件的路径
val_num: 1 # 这个是在验证的时候 抽取的音频文件数量
然后执行预处理
python process.py --config (your config path) --num_cpu (Number of cpu threads used in preprocessing) --strx (1 for a forced absolute path 0 for a relative path)
python train.py --config (your config path) --exp_name (your ckpt name) --work_dir Working catalogue (optional)
测试中的配置项
use_stftloss: false # 是否启用stft loss
lab_aux_melloss: 45
lab_aux_stftloss: 2.5 # 两种loss的混合控制
如果有其他需要可以修改 stftloss 的其他相关参数
python export_ckpt.py --ckpt_path (your ckpt path) --save_path (output ckpt path) --work_dir Working catalogue (optional)
实际步数是显示的一半
微调 nsf-hifigan 声码器请下载并解压 releases 中的权重,并将 ft_hifigan.yaml 中的 'finetune_ckpt_path' 选项改为权重路径
微调请使用 44100 Hz 采样率音频,并不要修改其他 mel 参数,除非你明确知道你在做什么
微调的其他功能使用请参考 openvpi/DiffSinger 项目文档
导出的权重可以在 DDSP-SVC, Diffusion-SVC, so-vits-svc 和 DiffSinger (openvpi) 等项目中使用
如果要进一步导出成在 OpenUtau 中使用的 onnx 格式权重,请使用 这个 脚本
配置文件中配置项的继承关系为: base.yaml -> base_hifi.yaml -> ft_hifigan.yaml
不要使用bf16训练模型, 它可能导致音质问题
2000 步左右即可微调完成 (显示的是4000步)
冻结 mpd 模块可能可以有更好的结果
HiFivae.yamlhifivae.yaml 训练vae模型
base_hifi_chroma.yaml 训练忽略8度nsf hifigan
base_hifi.yaml 训练nsf hifigan
base_ddspgan.yaml 训练带鉴别器的ddsp模型
ddsp_univnet.yaml 训练ddsp 混合univnet模型
nsf_univnet.yaml 训练带nsf的univnet(推荐)
univnet.yaml 训练原版univnet
lvc_base_ddspgan.yaml 训练使用lvc滤波器的 ddsp模型