Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Day04 - Pandas #5

Closed
maximechoulika opened this issue Aug 7, 2019 · 9 comments
Closed

Day04 - Pandas #5

maximechoulika opened this issue Aug 7, 2019 · 9 comments
Assignees

Comments

@maximechoulika
Copy link
Member

maximechoulika commented Aug 7, 2019

Scope has to be defined

@maximechoulika maximechoulika changed the title Day04 Day04 - Pandas Aug 7, 2019
@mybenzar mybenzar self-assigned this Aug 7, 2019
@ErenO
Copy link

ErenO commented Aug 21, 2019

J'avais fait un cours en ligne sur Coursera l'an dernier la première semaine était sur les bases de pandas, il y a aussi quelques liens intéressants :

@mybenzar
Copy link
Collaborator

mybenzar commented Aug 21, 2019 via email

@Fulguritude
Copy link

ex02: on fait du error handling ?

@Fulguritude
Copy link

Fulguritude commented Oct 18, 2019

ex02: le résultat fourni (0.02307969707897584) correspond à

	part_df = df[df['Year'] == year]
	part_df = part_df[part_df['Sex'] == gender]
	part_sport_df = part_df[part_df['Sport'] == sport]
	return part_sport_df.shape[0] / part_df.shape[0]

mais cela ne prend pas en compte les doublons éventuels (comme nous avertit pourtant l'énoncé); pour cela il faut ajouter les lignes

	part_df.drop_duplicates(['Name'], inplace = True)
	part_sport_df.drop_duplicates(['Name'], inplace = True)

juste avant le return, dans quel cas, le résultat est 0.01935634328358209

@maximechoulika
Copy link
Member Author

Je note ça on updatera :)

@Fulguritude
Copy link

Fulguritude commented Oct 18, 2019

ex04: the examples are a bit misleading: sp.where(2162) is of course not in the dataset (although I personally appreciate the reference given that I'm currently reading the original manga), and the sp.when('Atlanta') olympic games took place in 1996, neither in 1903 nor 2042 (of course)
I think it should be mentioned not to trust the examples

@Fulguritude
Copy link

J'ai trouvé ex04 bcp plus simple que ex03

@Fulguritude
Copy link

Fulguritude commented Oct 18, 2019

ex05: Si on compte les médailles en double pour les épreuves en équipe, l'ex05 ne change quasiment rien à l'exercice 3. S'il faut compter les médailles en ne comptant pas en double les médailles pour une même épreuve, il y a des complexités de dédoublonnage qui méritent un exemple juste plutôt qu'un exemple factice. Dans tous les cas, il faut rajouter ces considérations à l'énoncé IMO

Sans dédoublonnage: France 2008: {'G': 25, 'S': 24, 'B': 28}
Avec dédoublonnage juste, ce que j'essaye de faire maintenant, mais avec des problèmes, {'G': 7, 'S': 16, 'B': 20} https://en.wikipedia.org/wiki/France_at_the_2008_Summer_Olympics

À noter que le csv n'est pas à jour, Yannick Szczepaniak et Manuela Montebrun ont reçu leurs médailles plusieurs années plus tard pour cause de disqualification de leurs compétiteurs, leur médaille est donc NA pour le csv et le parsing correct du csv renvoie donc 2008: {'G': 7, 'S': 16, 'B': 18} après dédoublonnage approprié

(Ca m'énervait de ne pas comprendre pourquoi j'avais pas juste xd)

@Fulguritude
Copy link

ex06 et ex07: manque d'exemples concrets, le terme feature m'a perdu au départ, si c'est juste les colonnes ça peut mériter une commande et un screen de mathplotlin.pyplot.hist() etc

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants