Colocando alguns estudos em prática com um pequeno projeto de Engenharia de Dados.
Este projeto é dividido em 6 fases sequenciais.
Na primeira etapa, serão obtidos dados em formato .csv.
Em seguida, na segunda etapa, um SGBD será instalado no computador pessoal.
Na terceira etapa, será criada uma base de dados no SGBD.
Na quarta etapa, os dados do arquivo .csv serão inseridos na base de dados, sem o uso de Python.
Na quinta etapa, será criada uma base de dados no Azure SQL Database.
Por fim, na sexta etapa, uma ferramenta será utilizada para migrar os dados do SGBD do computador pessoal para o Azure Database.
O objetivo final é ter os dados armazenados e acessíveis na nuvem, no Azure SQL Database.
1º Etapa
Obtenha alguns dados em formato .csv.
Utilizei o site Kaggle para obter o Dataset. O Kaggle é uma plataforma online de ciência de dados que oferece uma comunidade global de cientistas de dados e aprendizado de máquina, bem como conjuntos de dados, competições, cursos e recursos para ajudar os profissionais a aprimorar suas habilidades em ciência de dados.
2º Etapa
Instale um SGBD no teu computador pessoal.
- SGBD (Sistema Gerenciador de Banco de Dados) Instalado. Utilizei o SSMS (SQL Server Management Studio).
O SQL Server Management Studio é um software lançado pela primeira vez com o Microsoft SQL Server 2005 que é usado para configurar, gerenciar e administrar todos os componentes do Microsoft SQL Server.
3º Etapa
Crie uma base de dados no SGDB desejado.
- Query para criar a base de dados.
4º Etapa
Faça a ingestão dos dados do arquivo .csv para a base de dados utilizada sem utilizar Python.
Irei utilizar o BULK INSERT para ingestão dos dados na base de dados criada. O BULK INSERT é um comando no SQL Server que permite a inserção de grandes volumes de dados em uma tabela de uma vez só. Ele é útil quando você precisa importar dados de arquivos de texto ou arquivos CSV para o SQL Server. O mesmo pode ser executado em modo rápido ou em modo em lote. No modo rápido, o SQL Server tenta otimizar o processo de inserção para uma melhor performance. No modo em lote, o SQL Server usa um log de transações para controlar as inserções em massa.
Para executar o BULK INSERT, é preciso especificar o nome da tabela de destino e o caminho do arquivo de origem. Além disso, você pode especificar outras opções, como o tipo de arquivo de origem (por exemplo, CSV), o delimitador de campo, o caractere de terminação de linha e outras configurações. Exemplo de uso do BULK INSERT para importar dados de um arquivo CSV:
BULK INSERT Tabela_exemplo
FROM 'C:\caminho\para\arquivo.csv'
WITH (
FIELDTERMINATOR = ',',
ROWTERMINATOR = '\n',
FIRSTROW = 2
);
- Query para criação da tabela. (Colunas criadas antecipadamente, pois, Bulk Insert não cria colunas ao inserir os dados na tabela.)
- Criação da Query para ingestão de dados do arquivo .csv utilizando o BULK INSERT.
- Query de criação da tabela executada.
- Conferindo a tabela.
5º Etapa
Crie uma base de dados no Azure SQL Database.
- Resource Group criado.
- Servidor e Database criados.
6º Etapa
Utilize alguma ferramenta para efetuar a migração dos dados que estão no SSMS do teu computador pessoal para o Azure Database.
- Ferramenta Azure Data Migration Assistant instalada.
O Azure Data Migration Assistant (DMA) é uma ferramenta gratuita da Microsoft que ajuda na migração de bancos de dados locais para o Azure. Ele permite a migração de várias fontes de dados, incluindo Microsoft SQL Server, Oracle e Sybase, para Azure SQL Database, Azure SQL Managed Instance e SQL Server em uma VM do Azure.
- Criando um novo projeto de migração no DMA.
- Conectando com o servidor de origem para a migração de dados.
- Conectando ao destino (Azure Database).
- Selecionando a tabela para miração.
- Script para criação da tabela gerado.
- Deploy do Schema.
- Migrando dados.
8.1 Processo de migração concluída.
- Conferindo migração pelo Query Editor no ambiente Azure.
Mini projeto feito para prática e estudo, toda dica será sempre bem vinda!