Skip to content

Latest commit

 

History

History
21 lines (11 loc) · 1.63 KB

README.md

File metadata and controls

21 lines (11 loc) · 1.63 KB

Discursos da Câmara em um Mongodb

License: MIT

Este projeto automatiza, de forma reprodutível e segura, algo que acabei fazendo várias vezes nos últimos anos: extrair e armazenar discursos feitos por deputados e deputadas federais na Câmara.

O que isso faz?

Um script extrai a lista de todas as pessoas que ocuparam mandatos na Câmara em um dado período e, a partir daí, usa a API Rest dos Dados Abertos da casa para recuperar seus discursos em plenário. Ao longo do processo, além disso, lotes de discursos são salvos em uma coleção de Mongodb -- que é rápido e permite salvar o conteúdo inteiro retornado em json de cada requisição, preservando informações que podem ser úteis no futuro.

Como usar?

Com Docker e Docker-compose instalados, basta clonar este repositório e, com o terminal aberto nele, rodar:

docker-compose up -d

Os dados são persistidos em um volume chamado dbdata, que pode então ser utilizado por outras imagens ou carregado numa instalação local do Mongodb.

Parâmetros

É possível alterar alguns parâmetros de extração editando o docker-compose.yml diretamente. Particularmente, START_LEGIS, sob o serviço etl_python3.8, indica a legislatura a partir da qual extrair discursos (o padrão é 52 porque, antes disso, a API da Câmara não retorna o conteúdo dos discursos, apenas seus metadados).