Aquí teniu algunes URLs d’exemple per cercar datasets de portals de dades obertes sobre Biomedicina.
• https://healthdata.gov/search/type/dataset • https://www.ncbi.nlm.nih.gov/datasets/ • https://www.who.int/data/collections • https://data.un.org/ • https://datos.gob.es/en/catalogo?theme_id=salud • https://www.idescat.cat/dades/
• Escolliu un dataset que us interessi personalment per alguna raó. • Si un grup escull un dataset, cap altre grup ja no el pot escollir. • Qui primer escriu el seu dataset al full de càlcul compartit, se’l queda.
Format tidy:
- Cada fila és una observació.
- Cada columna és una variable.
- Cada cel·la conté només una dada.
• https://www.jeannicholashould.com/tidy-data-in-python.html • http://shzhangji.com/blog/2017/09/30/pandas-and-tidy-data/ • https://medium.com/@aaronmak/tidying-datasets-in-python-8634f39159bc
És important que aconseguiu que les dades estiguin en format Tidy per poder-les aprofitar per a realitzar estudis.
- Explicació del context. Què son aquestes dades? Posar referències.
- Explicar les columnes que usareu (no cal totes). a) Nom b) Tipus (string, categorical, data, número enter, decimal ...) c) Per a què serveix, si no queda clar amb el nom.
- Quantes files hi ha?
- Hi ha NAs? A on?
- Resultat final, fitxer Jupyter Notebook amb: a) Text responent les anteriors observacions. b) Codi font que permeti carregar el CSV en un dataframe i mostri les primeres línies.
- El dataset està en format «tidy»? Justifiqueu la vostra resposta.
- Si no ho està, poseu-lo en aquest format utilitzant Pandas.
- Resultat final, completar el fitxer Jupyter Notebook amb la resposta, i el codi en Pandas que heu usat, si us ha fet falta.
- Si el fitxer no té valors NaN crea algunes files amb alguns valors NaN.
- Ara, aplica una d’aquestes dues operacions i justifica el motiu: a) Substituïr el valor dels NaN d’una columna per un altre valor. (operació fillna) b) Eliminar les files que tinguin algún valor NaN concret. (operació dropna)
- Resultat final, completar el fitxer Jupyter Notebook amb la resposta, i el codi en Pandas que heu usat.
- Que mostri només algunes de les columnes del dataframe.
- Que filtri algunes de les files per un o més criteris.
- Resultat final, Jupyter Notebook o projecte Python amb el codi.
- És a dir, que ordeni els valors d’una columna i mostri els primers per pantalla.
- També heu de mostrar un gràfic.
- Resultat final, Jupyter Notebook o projecte Python amb el codi i el gràfic.
- És a dir, que la consulta crei un nou camp depenent d’un altre camp, o calculat a partir d’altres columnes.
- Exemples: a) camp Apte/NoApte depenent de les notes d’alumnes b) càlcul imc a partir del pes i l’alçada.
- Resultat final, Jupyter Notebook o projecte Python amb el codi.
- Si no teniu un camp que es pugui convertir a tipus categòric, haureu de crear-ne un.
- També heu de mostrar un gràfic de totes les categories.
- Resultat final, Jupyter Notebook o projecte Python amb el codi i el gràfic.
- És a dir, que si les dades no estan agrupades les haureu d’agrupar per data; ja sigui per any, per mes o per dia.
- També heu de mostrar un gràfic.
- Resultat final, Jupyter Notebook o projecte Python amb el codi i el gràfic.
- Tria una de les 2 operacions: a) Fes una còpia del dataSet, aconsegueix crear 2 dataSet amb camps i files separats però que comparteixin un camp comú, i després fes el merge. b) Si el teu dataSet està desactualitzat o falten dades d'alguns anys i les trobes dades per altres fonts, crea un nou conjunt de dades amb algunes files i/o alguna columna nova. Finalment, fes el merge.
- Resultat final, Jupyter Notebook o projecte Python amb el codi.