Skip to content
This repository has been archived by the owner on Feb 22, 2023. It is now read-only.

Scraper for MP office expenses #40

Open
wants to merge 32 commits into
base: master
Choose a base branch
from

Conversation

alexandrupetrescu94
Copy link

#15

def infoecon():
from mptracker.scraper.infoecon import EconScraper
econ=EconScraper()
return econ.fetch()
Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Aici zice că nu ai pus newline la end-of-file. Pune te rog.

Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Comenzile nu au ce să returneze. Poți să pui aici print și mai încolo salvezi în DB.

@mgax
Copy link
Owner

mgax commented Nov 22, 2013

Scuze că nu ți-am zis de la început, dar codul trebuie să fie conform PEP-8 (style guide-ul de python).

key=(item.text().encode('utf-8'))

for sub in table_data:
print (sub)
Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Vezi că nu se lasă spațiu înainte de paranteza cu argumentele funcției. Also, funcția ar trebui să returneze rezultate, nu să le printeze :)

from mptracker.scraper.infoecon import EconScraper
econ=EconScraper()
print(econ.fetch())
''' # circ_elect doar numele , id coleg uninom , chelt pers chelt bun_serv
Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Aici este cod comentat? Mai bine îl ștergi.

Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ah, de fapt are sens, așa vei salva lucrurile în baza de date. Ok. Dar nu pot să fac merge la branch-ul tău cu codul ăsta comentat. Fie îl scoți temporar, fie îl faci să meargă până la capăt.



class EconScraper(Scraper):
index_url = 'http://www.cdep.ro/pls/parlam/informatii_economice.home'
Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

în fișierul ăsta, tot codul este indentat la 2 spații, nu e ok. PEP-8 zice 4 spații.

@mgax
Copy link
Owner

mgax commented Nov 24, 2013

Îmi e destul de greu să urmăresc codul de la scraper. Ai putea să redenumești unele din variabile? De exemplu, aș ghici că fetch_section citește cheltuielile pe o lună, și atunci poți să-i zici fetch_month.

#Tested with return, when finished @ yield self.fetch_section(url)

def fetch_month(self, section_url):
page_name = (section_url.split('?'))[1].split('&')
Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Nu e nevoie să faci parsing manual de URL. Folosește url_args din mptracker.scraper.common, îți dă un MultiDict cu argumentele din query string.


for link in tables_months.items('td > a'):
url_set.add(link.attr('href'))
for url in url_set:
Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Nici aici nu mi-e clar de ce ai folosit url_set. N-ai putea să chemi fetch_month în for-ul de mai sus?

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants