intruction

1、数据准备(用于微调w2v2)

如果是带segments的数据集，运行

sh ./segments2dataset.sh --data_dir data_seg

如果是不带segments的数据集，运行

sh ./wavscp2dataset.sh --data_dir data_noseg

--data_dir是包含kaldi数据准备文件的目录(text wav.scp utt2dur等等)

1.1、如果是带segments的数据集，还需要进行音频裁剪(根据utt_id)，便于训练，此步需要ffmpeg（git clone）

sh dataset2trim.sh --dataset_path data_seg/tmp/dataset --trim_audio_outputdir /data3/w2v2

构造data_seg/tmp/run_trim文件，里面每行都是ffmpeg指令，接着需要将文件拆成10份便于并行 > data_seg/tmp/run_trim[0-9]

--dataset_path是上一步输出的dataset文件

--trim_audio_outputdir是音频被裁剪后希望存储路径，尽量空间大点的

！！不同集请保持trim_audio_outputdir一致！！

最后run.pl并行执行文件data_seg/tmp/run_trim[0-9]中的指令，将裁剪后的音频全部存入trim_audio_outputdir

time /tsdata/kaldi_utils/run.pl JOB=1:10 data_seg/tmp/log.JOB.txt sh run_trim_ffmpeg.sh --file_name data_seg/tmp/run_trim --index JOB

2、将dataset转为huggingface的datasets类,用于微调训练

time python make_hfdatasets.py
--input_train_file=data_seg/tmp/dataset
--save_path=./hf_datasets
--segments_mode
--trim_audio_path=/data3/w2v2
--is_ch

或者sh run_make_hfdatasets.sh(自行更改脚本中参数)

--segments_mode下需要传入trim_audio_path，与上一步的trim_audio_outputdir保持一致，用于更改音频路径，使其指向裁剪后的音频路径

--is_ch表示处理中文数据集，默认在字间插入空格

可传入input_train_file、input_dev_file、input_test_file

3、微调w2v2模型

根据data_dir中的text构建词表lang_char.txt，转为vocab.json，并添加到processor_path中 sh run_get_processor.sh --data_dir data_seg_train --processor_path processor

sh run_finetune_w2v2.sh(自行更改脚本中参数)

4、w2v2_vad(跳过、可用于对齐)

sh run_wav2VAD.sh(自行更改脚本中参数)

requirement

transformers==4.9.0 torchaudio==0.8.0 pytorch==1.8.0 cudatoolkit=11.1

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.idea		.idea
processor_en_demo		processor_en_demo
CzcWav2vec2.py		CzcWav2vec2.py
README.md		README.md
dataset2trim.sh		dataset2trim.sh
dataset_dict.json		dataset_dict.json
finetune_w2v2.py		finetune_w2v2.py
finetune_w2v20.py		finetune_w2v20.py
get_dict.sh		get_dict.sh
get_processor.py		get_processor.py
make_hfdatasets.py		make_hfdatasets.py
run_finetune_w2v2.sh		run_finetune_w2v2.sh
run_get_processor.sh		run_get_processor.sh
run_make_hfdatasets.sh		run_make_hfdatasets.sh
run_trim_ffmpeg.sh		run_trim_ffmpeg.sh
run_wav2VAD.sh		run_wav2VAD.sh
segments2dataset.sh		segments2dataset.sh
text2token.py		text2token.py
wav2VAD.py		wav2VAD.py
wav2VAD_.py		wav2VAD_.py
wavscp2dataset.sh		wavscp2dataset.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

intruction

1、数据准备(用于微调w2v2)

1.1、如果是带segments的数据集，还需要进行音频裁剪(根据utt_id)，便于训练，此步需要ffmpeg（git clone）

2、将dataset转为huggingface的datasets类,用于微调训练

3、微调w2v2模型

4、w2v2_vad(跳过、可用于对齐)

requirement

About

Releases

Packages

Languages

Nian-Chen/w2v2_czc

Folders and files

Latest commit

History

Repository files navigation

intruction

1、数据准备(用于微调w2v2)

1.1、如果是带segments的数据集，还需要进行音频裁剪(根据utt_id)，便于训练，此步需要ffmpeg（git clone）

2、将dataset转为huggingface的datasets类,用于微调训练

3、微调w2v2模型

4、w2v2_vad(跳过、可用于对齐)

requirement

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages