El siguiente repositorio contiene el código fuente oficial de la charla Web scraping en tiempos de cuarentena, dictada el día 01-07-2020 para la comunidad. La información oficial del evento se encuentra en el siguiente link.
El proyecto general se montó en el OS Ubuntu v18.04 LTS, en una VM levantada en Google Cloud Platform (g1-small (1 vCPU, 1.7 GB memory)).
Para llevar a cabo los scrapers se utilizó Python v3.7, y creación de un ambiente virtual usando virtualenv.
En el caso de simular el navegador web para realizar el scraping interactivo se utilizó selenium, con Chromium.
Para el procesamiento de imágenes se utilizó la API de Tesseract en Python.
Observación: Dado que en esta charla, para la conversión de objetos .pdf a datos se realiza usando la librería tabula-py, en el ambiente de trabajo debe estar instalado Java 8+.
- Congreso: Texto Ley N° 21.227 - Protección al Empleo
- Dirección del Trabajo: Nómina de empresas acogidas a la Ley 21.227
- Dirección del Trabajo: Consulta pública de multas ejecutoriadas
- SII: Situación tributaria de Terceros
- SII: Información (complementaria) de personas Jurídicas y Empresas
- Complementario: Información MP
La configuración del ambiente virtual de Python para la replicabilidad de los resultados exhibidos se encuentra en el archivo requirements.txt
Para aquellos que quieran obtener los datos de forma inmediata, tenemos disponible el siguiente repositorio Drive para que accedan de forma libre.
En primer lugar, realizamos la descarga de los archivos provenientes de la Dirección del Trabajo: Nómina de empresas acogidas a la Ley 21.227. Para este ejercicio, se utilizaron los documentos asociados a las nóminas de empresas acogidas a la "Reducción de Jornada". No obstante, el script recoge todos las nóminas. Para esto se ocupa el código downloadDocs.py
Posteriormente, se realiza la transformación de los documentos en datos mediante el uso de tabula-py. El código que realiza esta transformación es pdfToData.py.
Ahora, para ir nutriendo la información obtenida anteriormente, se realizan scrapers Situación tributaria de Terceros del SII y Consulta pública de multas ejecutoriadas. Para este último, el código es multaScraper.py.
Y a modo de complementaridad, se disponibilizan demos para bypassear captchas numéricos mediante los métodos SIIDemo.py y tessDemo.py, con sus respectivas configuraciones.
Toda esta masividad de datos da la oportunidad para que cada uno de Uds. pueda realizar sus análisis. Así que, ¡A jugar!
- Moebius Analítica - Webpage