Skip to content

Data Engineering project using data streaming produced by python applications, ETL process and availability for ad-hoc SQL queries in the AWS cloud

Notifications You must be signed in to change notification settings

DieGit0/windfarm

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

Engenharia de Dados - Projeto 2

Esse projeto tem como finalidade demonstrar conhecimentos adquiridos no curso: Formação Engenharia de Dados: Domine Big Data!

Etapas

Etapas Descrição
1 Aplicações geradoras de Dados em Python
2 Kinesis Data Stream <> Kinesis Data Firehose
3 S3 bucket
4 Glue Crawler
5 Glue Job ETL
6 Parquet
7 Athena -> Catalog -> SQL

Tecnologias utilizadas:

image

Data Workflow:

  • Produtores : Três sensores simulados por aplicação python produzindo e entregando dados a cada 10s para kinesis stream

  • Consumidores: kinesis data stream para coleta dos dados em tempo real
    kineses firehose para entrega dos dados particionados em bucket S3

  • ETL: Crawler para gerar data catalog schema e tabela
    Job conversão de tipos e geração de formato parquet

  • Analytics: athena para consultas ad-hoc

Imagens:

  • 1. Produtores:

image

  • 2. Kinesis data stream:

image

  • 3. Kinesis firehose - origem e destino:

image
image

  • 4. S3 (firehose > destino):

image

  • 5. Glue Database e tabela:

image

  • 6. Crawler:

image
image

  • 7. Data Catalog table schema:

image

  • 8. Job ETL:

image
image

  • 9. Parquet:

image

  • 10. Athena:

image

About

Data Engineering project using data streaming produced by python applications, ETL process and availability for ad-hoc SQL queries in the AWS cloud

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published