Skip to content

Ra1nek/tts_subtitle

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

41 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TTS Subtitle Project

Описание

Этот проект предназначен для синтеза речи из текста с использованием векторных представлений голоса. Проект включает в себя предварительную обработку данных, обучение модели, генерацию векторного представления голоса и синтез речи на основе субтитров.

Структура проекта

  1. gui/main.py - Графический интерфейс для управления процессами предварительной обработки данных, обучения модели, генерации векторного представления голоса и синтеза речи.
  2. src/preprocess.py - Скрипт для предварительной обработки аудиофайлов и создания метаданных.
  3. src/train.py - Скрипт для обучения модели TTS.
  4. src/generate.py - Скрипт для генерации векторного представления голоса из аудиофайла.
  5. src/synthesize.py - Скрипт для синтеза речи на основе субтитров.
  6. src/voice_embedding.py - Скрипт для работы с векторными представлениями голоса, включая их сохранение, загрузку и сравнение.

Установка

  1. Установите необходимые зависимости:

    pip install -r requirements.txt

    Убедитесь, что у вас установлены следующие зависимости:

    • numpy
    • librosa
    • soundfile
    • pandas
    • TTS (или другой пакет для TTS, который используется в проекте)
  2. Убедитесь, что у вас есть конфигурационный файл для обучения модели (config/config.json).

Использование

Графический интерфейс

Запустите графический интерфейс для управления процессами:

python gui/main.py

Командная строка

Предварительная обработка данных:

python src/preprocess.py <путь_к_директории_с_данными>

Обучение модели:

python src/train.py <путь_к_файлу_конфигурации>

Генерация векторного представления:

python src/generate.py <путь_к_аудиофайлу> <путь_к_модели> <путь_к_файлу_с_вектором>

Синтез речи:

python src/synthesize.py <путь_к_файлу_субтитров> <путь_к_файлу_с_вектором>

Примеры

1. Предварительная обработка данных:

python src/preprocess.py data/

Этот скрипт обрабатывает аудиофайлы в директории data/ и создает метаданные.

2. Обучение модели:

python src/train.py config/config.json

Этот скрипт обучает модель с использованием конфигурации из config/config.json.

3. Генерация векторного представления:

python src/generate.py data/sample.wav models/speaker_encoder.pth models/speaker_embedding.pkl

Этот скрипт генерирует векторное представление из файла sample.wav и сохраняет его в speaker_embedding.pkl.

4. Синтез речи:

python src/synthesize.py subtitles.srt models/speaker_embedding.pkl

Этот скрипт синтезирует речь на основе субтитров из файла subtitles.srt и векторного представления из speaker_embedding.pkl.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages