Этот проект предназначен для синтеза речи из текста с использованием векторных представлений голоса. Проект включает в себя предварительную обработку данных, обучение модели, генерацию векторного представления голоса и синтез речи на основе субтитров.
gui/main.py
- Графический интерфейс для управления процессами предварительной обработки данных, обучения модели, генерации векторного представления голоса и синтеза речи.src/preprocess.py
- Скрипт для предварительной обработки аудиофайлов и создания метаданных.src/train.py
- Скрипт для обучения модели TTS.src/generate.py
- Скрипт для генерации векторного представления голоса из аудиофайла.src/synthesize.py
- Скрипт для синтеза речи на основе субтитров.src/voice_embedding.py
- Скрипт для работы с векторными представлениями голоса, включая их сохранение, загрузку и сравнение.
-
Установите необходимые зависимости:
pip install -r requirements.txt
Убедитесь, что у вас установлены следующие зависимости:
numpy
librosa
soundfile
pandas
TTS
(или другой пакет для TTS, который используется в проекте)
-
Убедитесь, что у вас есть конфигурационный файл для обучения модели (
config/config.json
).
Запустите графический интерфейс для управления процессами:
python gui/main.py
python src/preprocess.py <путь_к_директории_с_данными>
python src/train.py <путь_к_файлу_конфигурации>
python src/generate.py <путь_к_аудиофайлу> <путь_к_модели> <путь_к_файлу_с_вектором>
python src/synthesize.py <путь_к_файлу_субтитров> <путь_к_файлу_с_вектором>
python src/preprocess.py data/
Этот скрипт обрабатывает аудиофайлы в директории data/
и создает метаданные.
python src/train.py config/config.json
Этот скрипт обучает модель с использованием конфигурации из config/config.json
.
python src/generate.py data/sample.wav models/speaker_encoder.pth models/speaker_embedding.pkl
Этот скрипт генерирует векторное представление из файла sample.wav
и сохраняет его в speaker_embedding.pkl
.
python src/synthesize.py subtitles.srt models/speaker_embedding.pkl
Этот скрипт синтезирует речь на основе субтитров из файла subtitles.srt
и векторного представления из speaker_embedding.pkl
.