Skip to content

moebius-analitica/meetup-webscraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

alt text

PyPI PyPI - Implementation Python Versions Ubuntu PyPI - License

Meetup Analytics & Python 1 de Julio: Web scraping en tiempos de cuarentena

El siguiente repositorio contiene el código fuente oficial de la charla Web scraping en tiempos de cuarentena, dictada el día 01-07-2020 para la comunidad. La información oficial del evento se encuentra en el siguiente link.

ESTIMAD@S: PARA PODER VER LA CHARLA, FAVOR ACCEDAN AL SIGUIENTE LINK DE NUESTRO CANAL. NO OLVIDEN SUSCRIBIRSE!

Herramientas utilizadas

El proyecto general se montó en el OS Ubuntu v18.04 LTS, en una VM levantada en Google Cloud Platform (g1-small (1 vCPU, 1.7 GB memory)).

Para llevar a cabo los scrapers se utilizó Python v3.7, y creación de un ambiente virtual usando virtualenv.

En el caso de simular el navegador web para realizar el scraping interactivo se utilizó selenium, con Chromium.

Para el procesamiento de imágenes se utilizó la API de Tesseract en Python.

Observación: Dado que en esta charla, para la conversión de objetos .pdf a datos se realiza usando la librería tabula-py, en el ambiente de trabajo debe estar instalado Java 8+.

Fuentes de datos públicas

Descripción del contenido

La configuración del ambiente virtual de Python para la replicabilidad de los resultados exhibidos se encuentra en el archivo requirements.txt

Para aquellos que quieran obtener los datos de forma inmediata, tenemos disponible el siguiente repositorio Drive para que accedan de forma libre.

Estructura del repositorio

En primer lugar, realizamos la descarga de los archivos provenientes de la Dirección del Trabajo: Nómina de empresas acogidas a la Ley 21.227. Para este ejercicio, se utilizaron los documentos asociados a las nóminas de empresas acogidas a la "Reducción de Jornada". No obstante, el script recoge todos las nóminas. Para esto se ocupa el código downloadDocs.py

Posteriormente, se realiza la transformación de los documentos en datos mediante el uso de tabula-py. El código que realiza esta transformación es pdfToData.py.

Ahora, para ir nutriendo la información obtenida anteriormente, se realizan scrapers Situación tributaria de Terceros del SII y Consulta pública de multas ejecutoriadas. Para este último, el código es multaScraper.py.

Y a modo de complementaridad, se disponibilizan demos para bypassear captchas numéricos mediante los métodos SIIDemo.py y tessDemo.py, con sus respectivas configuraciones.

Toda esta masividad de datos da la oportunidad para que cada uno de Uds. pueda realizar sus análisis. Así que, ¡A jugar!

Autoría