Este projeto automatiza, de forma reprodutível e segura, algo que acabei fazendo várias vezes nos últimos anos: extrair e armazenar discursos feitos por deputados e deputadas federais na Câmara.
Um script extrai a lista de todas as pessoas que ocuparam mandatos na Câmara em um dado período e, a partir daí, usa a API Rest dos Dados Abertos da casa para recuperar seus discursos em plenário. Ao longo do processo, além disso, lotes de discursos são salvos em uma coleção de Mongodb -- que é rápido e permite salvar o conteúdo inteiro retornado em json
de cada requisição, preservando informações que podem ser úteis no futuro.
Com Docker e Docker-compose instalados, basta clonar este repositório e, com o terminal aberto nele, rodar:
docker-compose up -d
Os dados são persistidos em um volume chamado dbdata
, que pode então ser utilizado por outras imagens ou carregado numa instalação local do Mongodb.
É possível alterar alguns parâmetros de extração editando o docker-compose.yml diretamente. Particularmente, START_LEGIS
, sob o serviço etl_python3.8
, indica a legislatura a partir da qual extrair discursos (o padrão é 52
porque, antes disso, a API da Câmara não retorna o conteúdo dos discursos, apenas seus metadados).