Text Summarizer Using T5 Fine Tuned on CNN/DailyMail Dataset

This repository contains an implementation of a text summarization model based on the T5 (Text-To-Text Transfer Transformer) architecture. The primary goal of this project is to develop an efficient system capable of generating concise, human-readable summaries from lengthy news articles, making it easier to digest key information. This project specifically utilizes the CNN/DailyMail dataset, which is widely used for training models on the task of summarizing long-form text into brief highlights.

Key Features:

Model Architecture: This project leverages the T5 model, a transformer-based architecture designed for various text generation tasks, including summarization. The model is trained to convert a long text input (news article) into a concise output (summary).
Dataset: The model is trained on the CNN/DailyMail dataset, which consists of news articles and their respective highlights, making it an ideal dataset for summarization tasks.
API Integration: An API is created for real-world use, allowing users to send documents or text inputs and receive summarized versions. This API is built using Flask (or FastAPI/Streamlit depending on your preference) for easy integration into applications.

Usage

Clone the repository:
Create and activate a virtual environment
pip install -r requirements.txt
python main.py for training and saving the fine tuned model
Start the FastAPI server: uvicorn app:app --reload
Start the Streamlit app in a new terminal: streamlit run streamlit_app.py
Open your browser and go to http://localhost:8501 to access the Streamlit app.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.gitignore		.gitignore
README.md		README.md
TextSummarizationTrainer.py		TextSummarizationTrainer.py
app.py		app.py
main.py		main.py
requirements.txt		requirements.txt
sample_usage.png		sample_usage.png
streamlit_app.py		streamlit_app.py
submit_job.sh		submit_job.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Text Summarizer Using T5 Fine Tuned on CNN/DailyMail Dataset

Key Features:

Usage

About

Releases

Packages

Languages

AliakbarMehdizadeh/Transformers-Summarizer-T5-CNN

Folders and files

Latest commit

History

Repository files navigation

Text Summarizer Using T5 Fine Tuned on CNN/DailyMail Dataset

Key Features:

Usage

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages