Skip to content

Détecter le discours des incels sur Reddit: une approche par sac de communautés.

Notifications You must be signed in to change notification settings

CamilleDemers/incels-detection-reddit

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Comparaison de méthodes pour la détection des incels sur Reddit

Description

Ce dépôt contient les scripts utilisés pour lire, nettoyer et échantillonner les données utilisées pour entraîner les modèles décrits dans l'article.

Il contient également les fichiers de résultats obtenus pour chacune des configurations testées en phase d'apprentissage et de test.

Installation

git clone https://github.com/CamilleDemers/incels-detection-reddit.git
pip install -r requirements.txt

Structure du répertoire

Pour exécuter les scripts correctement, le répertoire devrait arborer la structure suivante :

incels-detection-reddit/
├── data/                  # Données brutes et prétraitées 
│   │
│   ├── incels/            # Données prétraitées pour la classe "incels"
│   │   │
│   │   └── the-eye_pushshift/  # Données brutes pour la classe "incels"
│   │
│   ├── neutrals/          # Données prétraitées pour la classe "neutres"
│   │   │
│   │   └── the-eye_pushshift/  # Données brutes pour la classe "neutres"
│   │
│   └── training_datasets/  # Jeux de données pour entraîner les modèles
│
├── src/                   # Scripts pour le prétraitement des données et l'entraînement des modèles
│   │
│   ├── utils/             # Fichiers utilitaires utilisés lors de l'exécution des scripts
│
├── results/               # Fichiers de résultats générés lors de l'exécution des scripts
│
├── .gitignore             # Dossiers et fichiers à ignorer par git
├── README.md              # Description du projet
└── requirements.txt       # Dépendances nécessaires pour rouler les scripts

Utilisation des scripts

# Lire les fichiers de données provenant de The-Eye / PushShift 
python scripts/read_incels_zst_to_csv.py
python scripts/read_incels_zst_to_csv.py

# Constituer les corpus d'apprentissage et de test 
python scripts/build_train_test_datasets.py
 
# Entraîner les modèles et générer les résultats d'apprentissage
python scripts/incels_detection_training.py

# Extraire les traits prédictifs des classes "incels" et "neutres"
python scripts/get_most_predictive_features.py

Informations de contact

Camille Demers : camille.demers@umontreal.ca


Références des jeux de données utilisés pour entraîner les modèles


About

Détecter le discours des incels sur Reddit: une approche par sac de communautés.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published