Esse projeto tem como finalidade demonstrar conhecimentos adquiridos no curso: Formação Engenharia de Dados: Domine Big Data!
Etapas | Descrição |
---|---|
1 | Aplicações geradoras de Dados em Python |
2 | Kinesis Data Stream <> Kinesis Data Firehose |
3 | S3 bucket |
4 | Glue Crawler |
5 | Glue Job ETL |
6 | Parquet |
7 | Athena -> Catalog -> SQL |
- Produtores : Três sensores simulados por aplicação python produzindo e entregando dados a cada 10s para kinesis stream
- Consumidores: kinesis data stream para coleta dos dados em tempo real
kineses firehose para entrega dos dados particionados em bucket S3 - ETL: Crawler para gerar data catalog schema e tabela
Job conversão de tipos e geração de formato parquet - Analytics: athena para consultas ad-hoc