Skip to content

Web Scraping & Automated Content Analysis course at FHGR.

License

Notifications You must be signed in to change notification settings

sandromatter/ws-aca

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

WS-ACA

Dieses Projekt wurde im Modul «Web Scraping & Automated Content Analysis» an der Fachhochschule Graubünden umgesetzt.

Cover image scrapy and python


Ausgangslage

Im Rahmen des Seminars lernen Studierende, wie man mit Web Scraping Inhalte unterschiedlicher Formate automatisiert sammeln und zu einem einheitlichen Korpus zusammenführen kann. Weiter lernen sie die möglichen Anwendungsbereiche, Herausforderungen (technische und rechtliche) sowie Limitationen kennen.

In einem zweiten Teil lernen Studierende die Aufbereitung des Analysematerials sowie verschiedene Methoden der automatisierten Inhaltsanalyse aus den Bereichen Textklassifikation und -extraktion kennen. Anhand von einschlägigen Studien werden die Methoden mit der praktischen Anwendung verzahnt. Ferner üben die Studierenden Forschungsideen zu entwickeln und zu präsentieren und diskutieren. Die Ergebnisse fassen Sie in einem Forschungsbericht sinnvoll zusammen und reflektieren sie kritisch. Die Anwendung und der Einsatz der dazu geeigneten Tools und Frameworks erlernen die Studierenden im Rahmen dieses Projektes.

Projektbeschrieb

Im Projekt wurde durch Sammlung von Online-Kommentaren der Moutainbike-News-Webseite «pinkbike.com» und Mountainbike-Rennergebnissen von «rootsandrain.com» evaluiert, ob ein Zusammenhang zwischen Rennergebnissen und verschiedenen Ausprägungen von Online-Kommentaren vorliegt. Das Projekt umfasst die Schritte Datensammlung, -bearbeitung und -auswertung.

Webcrawling

Für das Projekt wurde der High-Level Prozess in einem Diagramm abgebildet.

Crawling process pinkbike.com. Crawling process rootsandrain.com.

Installation und Ausführung

Um das Projekt Pyfeed lokal starten zu können, sind verschiedene Abhängigkeiten vorausgesetzt. Die Requirements werden im Pipfile im Projektordner aufgeführt und können mit Hilfe von diesem File installiert werden. Das Projekt wurde mit dem Python packaging tool «pipenv» aufgesetzt.

$ cd /{{your_path_to_directory}}/ws-aca/
$ pip install pipenv
$ pipenv install
$ pipenv jupyter-notebook

Nach Installation und dem aufsetzten und installieren der Importpakete in der virtuellen Umgebung, kann das Projekt mit jupyter-notebook gestartet werden. Anschliessend ist dieses lokal auf http://127.0.0.1:8888/ erreichbar.

Die Dependencies um das Projekt lokal zu testen befinden sich im Pipfile.

[packages] scrapy scrapy-user-agents scrapy-proxy-pool sqlalchemy ipython jupyter notebook pandas nltk fasttext contractions matplotlib seaborn

About

Web Scraping & Automated Content Analysis course at FHGR.

Resources

License

Stars

Watchers

Forks