data-extraction

Andrea Bergonzo & [Luca Massuda] (https://github.com/Massuda)

Il progetto è diviso principalmente in 2 parti:

la prima parte che dato un file .tsv (Tab-separated values) (esempio: AGIW.tsv) in un formato specificato sotto effettua le richieste ai siti web e crea un file (nel nostro esempio chiamato urlToCode.csv) che contiene i siti e i codici ricavati con gli xpath.
Per la creazione di questo tsv noi usavamo un foglio excel su drive esportandolo poi come tsv.
Il formato del file excel per creare il tsv è il seguente:
google doc sheet
example image
la seconda parte effettua la creazione dei file json data.json e xpath.json a partire dal file urlToCode.csv E' stato diviso in questo modo per poter permettere di ricreare i json senza dover rieffettuare le richieste delle pagine.

config.properties

Dovete creare un file config.properties come da esempio (config.properties.example) dove vanno specificati i nomi dei file seguenti:

data.cognome e xpath.cognome, i nomi dei file di output (nel nostro anno andava specificato il cognome in questi file, voi dovrete mettere data.json e xpath.json)
agiwTsv, il nome del file tsv iniziale
urlToCode, il nome del file intermedio creato dalle richieste alle pagine
file, il nome del file contente le risorse a voi assegnate
(le ultime 3 possono essere ignorate, servivano per prove al volo)

Ricordatevi di installare le dipendeze con Maven dopo aver pullato (mvn install -f pom.xml) oppure da un qualsiasi IDE tra le opzioni.

create l'excel con siti e regole xpath
configurate il file config.properties
fate partire il main UrlToCodeWriter.java per far girare gli xpath sulle pagine
fate partire il main in JSONWriter.java per fare creare i due file .json

N.B. Il codice non rappresentava la parte principale del progetto e potrebbe presentare dei bug, per qualsiasi dubbio contattateci.

Name		Name	Last commit message	Last commit date
Latest commit History 64 Commits
src		src
.gitignore		.gitignore
AGIW.tsv		AGIW.tsv
README.md		README.md
agiw-data-extraction - total.tsv		agiw-data-extraction - total.tsv
config.properties.example		config.properties.example
data.bergonzo.json		data.bergonzo.json
data.massuda.json		data.massuda.json
pom.xml		pom.xml
sources-andybergon.json		sources-andybergon.json
sources5601-5800.json		sources5601-5800.json
sources601-800.json		sources601-800.json
sources9800-10000.json		sources9800-10000.json
urlToCode-andybergon.csv		urlToCode-andybergon.csv
urlToCode.csv		urlToCode.csv
xpath.bergonzo.json		xpath.bergonzo.json
xpath.massuda.json		xpath.massuda.json