Progetto del corso Text Mining and Search (Laurea magistrale Data Science)
Abstract
AMAZON FINE FOOD REVIEWS: TEXT MINING TECHNIQUES
Il progetto si propone di analizzare attraverso tecniche di text mining un dataset costituito da recensioni di prodotti provenienti dal colosso dell’e-commerce Amazon. Si tratta di recensioni che rientrano principalmente nella categoria "fine foods", nonostante vi siano anche altre categorie di prodotti contemplate. A partire dal testo di queste recensioni in un primo momento è stata svolta un’analisi esplorativa per poi procedere con attività di data cleaning e preprocessing. A seguire sono stati applicati modelli di classificazione, binaria e multiclasse, di clustering e infine di topic modelling. I modelli di classificazione, Logistic Regression, SVM e Random Forest, hanno permesso di classificare una recensione a partire dal suo testo con un valore di score, 0/1 nel caso binario o da 1 a 5 nel caso multi classe. I modelli di clustering, K-means e Agglomerative Clustering, hanno invece cercato di raggruppare in cluster recensioni che avessero delle caratteristiche simili. Infine tramite tecniche di topic modelling, LDA, si è andati alla ricerca delle tematiche di maggior rilievo che emergessero dai testi delle recensioni a disposizione.
Keywords: Exploration, Text Preprocessing, Text Representation, Text Classification, Text Clustering, Topic Modelling
Lorgna Lorenzo
Marzorati Stefano