WS-ACA

Dieses Projekt wurde im Modul «Web Scraping & Automated Content Analysis» an der Fachhochschule Graubünden umgesetzt.

Ausgangslage

Im Rahmen des Seminars lernen Studierende, wie man mit Web Scraping Inhalte unterschiedlicher Formate automatisiert sammeln und zu einem einheitlichen Korpus zusammenführen kann. Weiter lernen sie die möglichen Anwendungsbereiche, Herausforderungen (technische und rechtliche) sowie Limitationen kennen.

In einem zweiten Teil lernen Studierende die Aufbereitung des Analysematerials sowie verschiedene Methoden der automatisierten Inhaltsanalyse aus den Bereichen Textklassifikation und -extraktion kennen. Anhand von einschlägigen Studien werden die Methoden mit der praktischen Anwendung verzahnt. Ferner üben die Studierenden Forschungsideen zu entwickeln und zu präsentieren und diskutieren. Die Ergebnisse fassen Sie in einem Forschungsbericht sinnvoll zusammen und reflektieren sie kritisch. Die Anwendung und der Einsatz der dazu geeigneten Tools und Frameworks erlernen die Studierenden im Rahmen dieses Projektes.

Projektbeschrieb

Im Projekt wurde durch Sammlung von Online-Kommentaren der Moutainbike-News-Webseite «pinkbike.com» und Mountainbike-Rennergebnissen von «rootsandrain.com» evaluiert, ob ein Zusammenhang zwischen Rennergebnissen und verschiedenen Ausprägungen von Online-Kommentaren vorliegt. Das Projekt umfasst die Schritte Datensammlung, -bearbeitung und -auswertung.

Webcrawling

Für das Projekt wurde der High-Level Prozess in einem Diagramm abgebildet.

Installation und Ausführung

Um das Projekt Pyfeed lokal starten zu können, sind verschiedene Abhängigkeiten vorausgesetzt. Die Requirements werden im Pipfile im Projektordner aufgeführt und können mit Hilfe von diesem File installiert werden. Das Projekt wurde mit dem Python packaging tool «pipenv» aufgesetzt.

$ cd /{{your_path_to_directory}}/ws-aca/
$ pip install pipenv
$ pipenv install
$ pipenv jupyter-notebook

Nach Installation und dem aufsetzten und installieren der Importpakete in der virtuellen Umgebung, kann das Projekt mit jupyter-notebook gestartet werden. Anschliessend ist dieses lokal auf http://127.0.0.1:8888/ erreichbar.

Die Dependencies um das Projekt lokal zu testen befinden sich im Pipfile.

[packages] scrapy scrapy-user-agents scrapy-proxy-pool sqlalchemy ipython jupyter notebook pandas nltk fasttext contractions matplotlib seaborn

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
docs		docs
pinkbike_analysis		pinkbike_analysis
pinkbike_scraper		pinkbike_scraper
rar_scraper		rar_scraper
.gitignore		.gitignore
LICENSE		LICENSE
Pipfile		Pipfile
Pipfile.lock		Pipfile.lock
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WS-ACA

Ausgangslage

Projektbeschrieb

Webcrawling

Installation und Ausführung

About

Languages

License

sandromatter/ws-aca

Folders and files

Latest commit

History

Repository files navigation

WS-ACA

Ausgangslage

Projektbeschrieb

Webcrawling

Installation und Ausführung

About

Resources

License

Stars

Watchers

Forks

Languages