Edit Mai 2020

Ce repo est un peu en désordre et mal expliqué sur certains points.

Ayant accès au Tensorflow Research Cloud Program, je compte peut être entraîner from scratch (et non fine-tuner comme il est question ici) sur un gros dataset en français. Si cela abouti, j'archiverai ce qui est ici actuellement et j'écrirai une meilleure doc 👍

GPT-2 🇫🇷

Modèle GPT-2 d'OpenAI entraîné sur quatres différents jeux de données en français:

Livres en français
Scripts de films français
Compte-rendus des débats parlementaires
Tweet d'Emmanuel Macron

permettant de faire de la génération de texte.

Une démo utilisant pour chaque jeu de données un modèle GPT-2 Small (124M) est disponible à l'adresse suivante: https://gpt2.williamjacques.fr (service down)

Usage

Cloner ce repo

git clone https://github.com/aquadzn/gpt2-french.git

Tensorflow et gpt-2-simple sont necéssaires afin de fine-tuner GPT-2. Créer un environnement puis installer les deux packages pip install tensorflow==1.14 gpt-2-simple.

Un script et un notebook sont disponibles dans le dossier src afin de fine-tuner GPT-2 sur vos propres datasets. L'output de chaque entraînement, c'est à dire le dossier checkpoint/run1, est à mettre dans gpt2-model/model1 model2 model3 etc...

Vous pouvez lancer le script deploy_cloudrun.sh afin de déployer tous vos différents modèles (dans gpt2-model) d'un coup. Il faut cependant avoir déjà initialisé l'outil CLI gcloud (Cloud SDK).

Modèles

Releases

Crédits

Basé sur les repos GPT2-Simple et GPT2-CloudRun de minimaxir

Licence

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 81 Commits
docs		docs
gpt2-model		gpt2-model
src		src
.gitignore		.gitignore
README.md		README.md
deploy_cloudrun.sh		deploy_cloudrun.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Edit Mai 2020

GPT-2 🇫🇷

Usage

Modèles

Crédits

Licence

About

Releases 2

Packages

Contributors 3

Languages

aquadzn/gpt2-french

Folders and files

Latest commit

History

Repository files navigation

Edit Mai 2020

GPT-2 🇫🇷

Usage

Modèles

Crédits

Licence

About

Topics

Resources

Stars

Watchers

Forks

Releases 2

Packages 0

Contributors 3

Languages

Packages