Clasificación de Géneros de Películas Usando Procesamiento de Lenguaje Natural (NLP)

Descripción del Proyecto

Este repositorio contiene un proyecto enfocado en la clasificación de géneros de películas basándose únicamente en sus descripciones. Cada película puede pertenecer a varios géneros, y utilizamos técnicas de Procesamiento de Lenguaje Natural (NLP) en Python para realizar esta clasificación multietiqueta. El proyecto implica la limpieza, el procesamiento y el análisis de los textos para extraer características significativas y, finalmente, predecir los géneros mediante una red neuronal.

Características Clave

Preprocesamiento de Datos:
- Limpieza de texto, incluyendo la eliminación de stopwords y lematización.
- Vectorización de palabras usando varias técnicas (TF-IDF, Bag of Words).
- Análisis de las palabras más comunes en los diferentes géneros.
Modelado:
- Resolución de un problema de clasificación multietiqueta mediante una red neuronal implementada con la librería TensorFlow.
- La variable objetivo (los géneros de las películas) se codificó como dummies para el entrenamiento.
- La red neuronal se entrena utilizando un enfoque de aprendizaje supervisado, con división de los datos en entrenamiento y prueba.
Evaluación del Desempeño:
- Se utilizan varias métricas de evaluación, como el AUC (Área Bajo la Curva) y la precisión, para medir el rendimiento del modelo.

Flujo de Trabajo

Limpieza de Datos:
- Tokenización, lematización y eliminación de stopwords para preprocesar las descripciones de las películas.
Extracción de Características:
- Conversión del texto limpio en vectores mediante técnicas de vectorización de palabras.
Entrenamiento del Modelo:
- Entrenamiento supervisado utilizando una red neuronal diseñada para clasificación multietiqueta.
- El modelo predice géneros para cada película en función de la descripción, aprovechando la potencia de los embeddings de palabras.
Evaluación:
- Se calculan métricas como el AUC y la precisión para evaluar el rendimiento del modelo.

Librerías Utilizadas

Python
TensorFlow
Scikit-learn
NLTK (Natural Language Toolkit)
Pandas
NumPy

Cómo Ejecutar el Proyecto

Clona este repositorio:

git clone https://github.com/yourusername/movie-genre-classification.git

Instala las dependencias necesarias:
```
pip install -r requirements.txt
```

El archivo requirements.txt incluye todas las librerías necesarias para ejecutar el proyecto, como TensorFlow, Scikit-learn, NLTK, Pandas, y NumPy. Estas herramientas son clave para realizar el procesamiento de lenguaje natural (NLP), la vectorización de palabras y la construcción del modelo de red neuronal para la clasificación de géneros de películas.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
API_vectorizer.pkl		API_vectorizer.pkl
Api_AllMiniModel.pkl		Api_AllMiniModel.pkl
Api_Flask.py		Api_Flask.py
Api_m09_model_deployment_2.py		Api_m09_model_deployment_2.py
Api_pesos_modelo_calibrado.h5		Api_pesos_modelo_calibrado.h5
Diccionario_con_lemas.pkl		Diccionario_con_lemas.pkl
LICENSE		LICENSE
Mejores_Parametros_Calibrados.pkl		Mejores_Parametros_Calibrados.pkl
Participaciones 100% de las palabras.pkl		Participaciones 100% de las palabras.pkl
README.md		README.md
S7P1_proyecto2 Keras.ipynb		S7P1_proyecto2 Keras.ipynb
XGBoost clf.pkl		XGBoost clf.pkl
df_a_evaluar.pkl		df_a_evaluar.pkl
stopwords_english.pkl		stopwords_english.pkl

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Clasificación de Géneros de Películas Usando Procesamiento de Lenguaje Natural (NLP)

Descripción del Proyecto

Características Clave

Flujo de Trabajo

Librerías Utilizadas

Cómo Ejecutar el Proyecto

About

Releases

Packages

Languages

License

christiansakerb/Lenguaje_Natural_Tipo_Pelicula

Folders and files

Latest commit

History

Repository files navigation

Clasificación de Géneros de Películas Usando Procesamiento de Lenguaje Natural (NLP)

Descripción del Proyecto

Características Clave

Flujo de Trabajo

Librerías Utilizadas

Cómo Ejecutar el Proyecto

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages