Skip to content

Projetos da formação cientista de dados data science academy

License

Notifications You must be signed in to change notification settings

RafaelGallo/Projetos_dsa

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Projetos ciências de dados na prática - Data Science Academy

MIT License GPLv3 License AGPL License author

Logo

Definição

Neste repositório, você encontrará os projetos práticos que realizei ao longo do meu caminho para me tornar um cientista de dados. Esses projetos foram desenvolvidos como parte dos cursos que fiz, incluindo "Big Data Analytics com R e Azure Machine Learning", "Big Data Real-time Analytics com Python e Spark", "Machine Learning", "Business Analytics", "Visualização de Dados e Design de Dashboards" e "Engenharia de Dados com Hadoop e Spark". Durante minha formação como cientista de dados, tive a oportunidade de trabalhar em diversos projetos interessantes. Alguns desses projetos resultaram em ótimos resultados e forneceram valiosas experiências. Ao aplicar os conhecimentos adquiridos nos cursos, pude enfrentar desafios reais e desenvolver soluções inovadoras. Ao explorar este repositório, você encontrará uma variedade de projetos que abrangem diferentes áreas da ciência de dados. Esses projetos refletem a minha habilidade em lidar com análise de big data, uso de técnicas de machine learning, análise de negócios, visualização de dados e criação de dashboards, além de engenharia de dados com o uso de tecnologias como Hadoop e Spark. Cada projeto representa um marco em minha jornada como cientista de dados e destaca minha capacidade de aplicar conceitos teóricos em cenários práticos. Estou entusiasmado em compartilhar esses projetos com você e espero que eles demonstrem meu conhecimento e habilidades como cientista de dados. Em conclusão, este repositório apresenta os projetos que desenvolvi durante minha formação como cientista de dados, utilizando habilidades e conhecimentos adquiridos em cursos como "Big Data Analytics com R e Azure Machine Learning", "Big Data Real-time Analytics com Python e Spark", "Machine Learning", "Business Analytics", "Visualização de Dados e Design de Dashboards" e "Engenharia de Dados com Hadoop e Spark". Esses projetos representam minha capacidade de enfrentar desafios reais, aplicar técnicas avançadas de análise de dados e criar soluções inovadoras. Espero que você encontre inspiração e insights valiosos ao explorar esses projetos.

Citação

Este repositório abriga projetos concretizados na prática os mini-projetos, ate os projetos de feedback durante a formação cientista de dados pela Data Science Academy. @Data Science Academy https://www.datascienceacademy.com.br

Mini-projetos

A formação de um cientista de dados abrange diversas etapas cruciais para o desenvolvimento de suas habilidades e competências. Uma das etapas fundamentais nesse percurso são os mini-projetos. Esses projetos desempenham um papel vital no cotidiano de um cientista de dados, pois proporcionam uma oportunidade valiosa para adquirir um entendimento prático de como os cientistas de dados lidam com os dados. Os mini-projetos são como pequenos laboratórios nos quais os cientistas de dados podem aplicar os conhecimentos teóricos que adquiriram em sua formação. Eles oferecem a chance de colocar em prática conceitos estatísticos, técnicas de programação e algoritmos de aprendizado de máquina em cenários do mundo real. Isso permite que os futuros cientistas de dados ganhem experiência valiosa e desenvolvam a habilidade de resolver problemas complexos utilizando dados. Além disso, os mini-projetos ajudam os aspirantes a cientistas de dados a aprimorar suas habilidades de análise de dados, visualização e comunicação. Eles permitem que os estudantes compreendam como apresentar resultados de forma eficaz e como traduzir insights técnicos em informações compreensíveis para as partes interessadas. Portanto, a primeira parte do processo de formação de um cientista de dados é dedicada aos mini-projetos, que desempenham um papel essencial no desenvolvimento de uma base sólida de conhecimento prático. Essa experiência prática prepara os futuros cientistas de dados para enfrentar os desafios do mundo real e contribuir de maneira significativa para a tomada de decisões baseadas em dados em uma variedade de campos e setores. Portanto, a compreensão e a aplicação dos princípios de trabalho com dados são habilidades essenciais que permeiam toda a jornada de formação de um cientista de dados.

1) Big Data Analytics com R e Microsoft Azure Machine Learning

Mini-projeto 1 - Análise de Redes Sociais (Mini-projeto 1 - Análise de Redes Sociais) R

Mini-projeto 2 - Análise de Risco de Crédito (Mini-projeto 2 - Análise de Risco de Crédito) R

Mini-projeto 3 - Análise de variância (ANOVA) (Mini-projeto 3 - Análise de variância (ANOVA)) R

Mini-projeto 4 - Análise de Redes Sociais (Mini-projeto 4 - Análise exploratória de dados - Socioeconômicos) R

Mini-projeto 5 - Análise financeira SQL e Regressão linear (Mini-projeto 5 - Análise financeira SQL e Regressão linear) R

Mini-projeto 6 - Cancer (Mini-projeto 6 - Identificando ocorrência de Cancer) R

Mini-projeto 7 - Customer Churn Analyticss (Mini-projeto 7 - Customer Churn Analytics) R

Mini-projeto 8 - Fraud card (Mini-projeto 8 - Fraud card) R

Mini-projeto 9 - Mapeando a Ocorrência do vírus zika (Mini-projeto 9 - Mapeando a Ocorrência do vírus zika) R

Mini-projeto 10 - Modelos estatisticos (Mini-projeto 10 - Modelos estatisticos) R

Mini-projeto 11 - Pib (Mini-projeto 11 - Pib) R

Mini-projeto 12 - Prevendo Despesas Hospitalares (Mini-projeto 12 - Prevendo Despesas Hospitalares) R

Mini-projeto 13 - Séries Temporais (Mini-projeto 13 - Séries Temporais) R

Mini-projeto 14 - Teste estatístico n satisfeita (Mini-projeto 14 - Teste estatístico n satisfeita) R

Mini-projeto 15 - Testes Estatísticos (Mini-projeto 15 - Testes Estatísticos) R

Mini-projeto 16 - Text Analytics em Recursos Humanos (Mini-projeto 16 - Text Analytics em Recursos Humanos) R

Mini-projeto 17 - Machine Learning em Marketing Digital Prevendo Número de Usuários Convertidos (Mini-projeto 17 - Machine Learning em Marketing Digital Prevendo Número de Usuários Convertidos) R

Mini-projeto 18 - Machine Learning em Marketing Digital Prevendo a Probabilidade de Conversão do Lead (Mini-projeto 18 - Machine Learning em Marketing Digital Prevendo a Probabilidade de Conversão do Lead) R

2) Big Data Real-Time Analytics com Python e Spark

Mini-projeto 1 - Processo de construção treinamento avaliação de modelos para classificação (Mini-projeto 1 - Processo de construção treinamento avaliação de modelos para classificação) Notebook

Mini-projeto 2 - Mini-projeto 2 - Processo de Construção, Treinamento, avaliação seleção de modelos rg (Mini-projeto 2 - Mini-projeto 2 - Processo de Construção, Treinamento, avaliação seleção de modelos rg) Notebook

Mini-projeto 3 - Mini-projeto 3 - Prevendo a cotação de criptomoedas tempo real (Mini-projeto 3 - Mini-projeto 3 - Prevendo a cotação de criptomoedas tempo real) Notebook

Mini-projeto 4 - Definição do Problema e Fonte de Dados (Mini-projeto 4 - Definição do Problema e Fonte de Dados) Notebook

Mini-projeto 5 - Machine learning engenharia civil com apache spark (Mini-projeto 5 - Machine learning engenharia civil com apache spark) Notebook

Mini-projeto 6 - Análise de dados de sensores iot (Mini-projeto 6 - Análise de dados de sensores iot) Notebook

Mini-projeto 7 - Sistema de Recomendação (Mini-projeto 7 - Sistema de Recomendação) Notebook

3) Engenharia de Dados com Hadoop e Spark

Mini-projeto 1 - Importando banco de dados oracle com HDFS (Mini-projeto 1 - Importando banco de dados oracle com HDFS) python

Mini-projeto 2 - Prevendo casos de doenças cardíacas (Mini-projeto 2 - Prevendo casos de doenças cardíacas) python

Mini-projeto 3 - Design de job mapreduce com spark para os gastos totais por cliente (Mini-projeto 3 - Design de job mapreduce com spark para os gastos totais por cliente) python

4) Machine Learning

Mini-projeto 1 - Machine learning K-NN (Mini-projeto 1 - Machine learning K-NN) Notebook

Mini-projeto 2 - Rede neural com tensorflow para classificação imagens vestuário (Mini-projeto 2 - Rede neural com tensorflow para classificação imagens vestuário) Notebook

Mini-projeto 3 - Classificador Spam com Naive bayes (Mini-projeto 3 - Classificador Spam com Naive bayes) Notebook

Mini-projeto 4 - Otimização retorno de investimentos (Mini-projeto 4 - Otimização retorno de investimentos) Notebook

Mini-projeto 5 - Otimização sistemas de voos (Mini-projeto 5 - Otimização sistemas de voos) Notebook

5) Business analytics

Mini-projeto 1 - Health Analytics (Mini-projeto 1 - Health Analytics) Notebook

Mini-projeto 2 - AI Bot Trader (Mini-projeto 2 - AI Bot Trader) Notebook

Mini-projeto 3 - People Analytics (Mini-projeto 3 - People Analytics) Notebook

Mini-projeto 4 - Análise de Risco (Mini-projeto 4 - Análise de Risco) Notebook

Mini-projeto 5 - Data quality detecção de fraudes (Mini-projeto 5 - Data quality detecção de fraudes) Notebook

Mini-projeto 6 - Detecção de fraudes em transações vendas online (Mini-projeto 6 - Detecção de fraudes em transações vendas online) Notebook

Mini-projeto 7 - Text Analytics Para Analisar a Reação do mercado (Mini-projeto 7 - Text Analytics Para Analisar a Reação do mercado) Notebook

Mini-projeto 8 - Análise de preço e análise textual previsão de ativos financeiros (Mini-projeto 9 - Análise de preço e análise textual previsão de ativos financeiros) Notebook

Mini-projeto 10 - Supply chain analytics (Mini-projeto 10 - Supply chain analytics) Notebook

Mini-projeto 11 - Prevendo riscos em supply chain (Mini-projeto 11 - Prevendo riscos em supply chain) Notebook

Descrição projetos na prática

Projeto 01 - Logística prevendo o consumo de energia de carros elétricos - (Big Data Analytics com R e Microsoft Azure Machine Learning) R

Projeto 02 - Segurança do trabalho prevendo a eficiência de extintores de incendio - (Big Data Analytics com R e Microsoft Azure Machine Learning) R

Projeto 03 - Análise de risco no transporte público - (Big Data Real-Time Analytics com Python e Spark) Python_Notebook Apresetação em PDF

Projeto 04 - Análise de sentimento em tweets ChatGPT com pyspark (Big Data Real-Time Analytics com Python e Spark) notebook_python

Projeto 05 - Implementando Slow Changing - (Engenharia de Dados com Hadoop e Spark)

Projeto 06 - Processamento de Logs em Tempo Real - (Engenharia de Dados com Hadoop e Spark)

Projeto 07 - Medicina personalizada redefinindo o tratamento de câncer - (Machine learning) notebook_python

Projeto 08 - Modelagem preditiva em iot - (Machine learning) R

Projeto 09 - Prevendo tendências macroeconômicas - (Business analytics) notebook

Projeto 10 - Sistema de Recomendação rede varejo - (Business analytics) notebook

Projeto 11 - Modelos Preditivos - (Visualização de Dados e Design de Dashboards)

Projeto 12 - Design de Arquitetura Para Projetos IoT analytics - (Visualização de Dados e Design de Dashboards)

Stack utilizada

Programação Python, R.

Machine learning: Scikit-learn.

Deep learning: Keras, Tensorflow.

Leitura CSV: Pandas.

Análise de dados: Seaborn, Matplotlib.

Modelo machine learning - Processo de linguagem natural: NLTK, TextBlob, Vander.

Variáveis de Ambiente

Para rodar esse projeto, você vai precisar adicionar as seguintes variáveis de ambiente no seu .env

API_KEY

ANOTHER_API_KEY

Instalação

Instalação das bibliotecas para esse projeto no python.

  conda install pandas 
  conda install scikitlearn
  conda install numpy
  conda install scipy
  conda install matplotlib

  python==3.6.4
  numpy==1.13.3
  scipy==1.0.0
  matplotlib==2.1.2

Instalação do Python É altamente recomendável usar o anaconda para instalar o python. Clique aqui para ir para a página de download do Anaconda https://www.anaconda.com/download. Certifique-se de baixar a versão Python 3.6. Se você estiver em uma máquina Windows: Abra o executável após a conclusão do download e siga as instruções.

Assim que a instalação for concluída, abra o prompt do Anaconda no menu iniciar. Isso abrirá um terminal com o python ativado. Se você estiver em uma máquina Linux: Abra um terminal e navegue até o diretório onde o Anaconda foi baixado. Altere a permissão para o arquivo baixado para que ele possa ser executado. Portanto, se o nome do arquivo baixado for Anaconda3-5.1.0-Linux-x86_64.sh, use o seguinte comando: chmod a x Anaconda3-5.1.0-Linux-x86_64.sh.

Agora execute o script de instalação usando.

Depois de instalar o python, crie um novo ambiente python com todos os requisitos usando o seguinte comando

conda env create -f environment.yml

Após a configuração do novo ambiente, ative-o usando (windows)

activate "Nome do projeto"

ou se você estiver em uma máquina Linux

source "Nome do projeto" 

Agora que temos nosso ambiente Python todo configurado, podemos começar a trabalhar nas atribuições. Para fazer isso, navegue até o diretório onde as atribuições foram instaladas e inicie o notebook jupyter a partir do terminal usando o comando

jupyter notebook

Demo modelo machine learning

# Importação das bibliotecas de nlp
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Gerar dados de exemplo
X, y = make_classification(n_samples=1000, n_features=10, random_state=42)

# Dividir os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar o classificador Gradient Boosting
gb_classifier = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)

# Treinar o classificador
gb_classifier.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = gb_classifier.predict(X_test)

# Calcular a precisão do modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisão do modelo:", accuracy)

## Aplicação em R
library(xgboost)

# Gerar dados de exemplo
data <- matrix(rnorm(1000), ncol = 10)
labels <- sample(c(0, 1), 100, replace = TRUE)

# Dividir os dados em conjunto de treinamento e teste
train_indices <- sample(1:100, 80)
train_data <- data[train_indices, ]
train_labels <- labels[train_indices]
test_data <- data[-train_indices, ]
test_labels <- labels[-train_indices]

# Criar a matriz de dados específica do xgboost
dtrain <- xgb.DMatrix(data = as.matrix(train_data), label = train_labels)
dtest <- xgb.DMatrix(data = as.matrix(test_data), label = test_labels)

# Definir os parâmetros do modelo
params <- list(
  booster = "gbtree",
  objective = "binary:logistic",
  eta = 0.1,
  max_depth = 3,
  nthread = 2,
  eval_metric = "error"
)

# Treinar o modelo
model <- xgb.train(
  params = params,
  data = dtrain,
  nrounds = 100
)

# Fazer previsões no conjunto de teste
pred <- predict(model, dtest)

# Calcular a precisão do modelo
accuracy <- sum(pred > 0.5 == test_labels) / length(test_labels)
print(paste("Precisão do modelo:", accuracy))

Suporte

Para suporte, mande um email para rafaelhenriquegallo@gmail.com

About

Projetos da formação cientista de dados data science academy

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published