Neste repositório, você encontrará os projetos práticos que realizei ao longo do meu caminho para me tornar um cientista de dados. Esses projetos foram desenvolvidos como parte dos cursos que fiz, incluindo "Big Data Analytics com R e Azure Machine Learning", "Big Data Real-time Analytics com Python e Spark", "Machine Learning", "Business Analytics", "Visualização de Dados e Design de Dashboards" e "Engenharia de Dados com Hadoop e Spark". Durante minha formação como cientista de dados, tive a oportunidade de trabalhar em diversos projetos interessantes. Alguns desses projetos resultaram em ótimos resultados e forneceram valiosas experiências. Ao aplicar os conhecimentos adquiridos nos cursos, pude enfrentar desafios reais e desenvolver soluções inovadoras. Ao explorar este repositório, você encontrará uma variedade de projetos que abrangem diferentes áreas da ciência de dados. Esses projetos refletem a minha habilidade em lidar com análise de big data, uso de técnicas de machine learning, análise de negócios, visualização de dados e criação de dashboards, além de engenharia de dados com o uso de tecnologias como Hadoop e Spark. Cada projeto representa um marco em minha jornada como cientista de dados e destaca minha capacidade de aplicar conceitos teóricos em cenários práticos. Estou entusiasmado em compartilhar esses projetos com você e espero que eles demonstrem meu conhecimento e habilidades como cientista de dados. Em conclusão, este repositório apresenta os projetos que desenvolvi durante minha formação como cientista de dados, utilizando habilidades e conhecimentos adquiridos em cursos como "Big Data Analytics com R e Azure Machine Learning", "Big Data Real-time Analytics com Python e Spark", "Machine Learning", "Business Analytics", "Visualização de Dados e Design de Dashboards" e "Engenharia de Dados com Hadoop e Spark". Esses projetos representam minha capacidade de enfrentar desafios reais, aplicar técnicas avançadas de análise de dados e criar soluções inovadoras. Espero que você encontre inspiração e insights valiosos ao explorar esses projetos.
Este repositório abriga projetos concretizados na prática os mini-projetos, ate os projetos de feedback durante a formação cientista de dados pela Data Science Academy. @Data Science Academy https://www.datascienceacademy.com.br
A formação de um cientista de dados abrange diversas etapas cruciais para o desenvolvimento de suas habilidades e competências. Uma das etapas fundamentais nesse percurso são os mini-projetos. Esses projetos desempenham um papel vital no cotidiano de um cientista de dados, pois proporcionam uma oportunidade valiosa para adquirir um entendimento prático de como os cientistas de dados lidam com os dados. Os mini-projetos são como pequenos laboratórios nos quais os cientistas de dados podem aplicar os conhecimentos teóricos que adquiriram em sua formação. Eles oferecem a chance de colocar em prática conceitos estatísticos, técnicas de programação e algoritmos de aprendizado de máquina em cenários do mundo real. Isso permite que os futuros cientistas de dados ganhem experiência valiosa e desenvolvam a habilidade de resolver problemas complexos utilizando dados. Além disso, os mini-projetos ajudam os aspirantes a cientistas de dados a aprimorar suas habilidades de análise de dados, visualização e comunicação. Eles permitem que os estudantes compreendam como apresentar resultados de forma eficaz e como traduzir insights técnicos em informações compreensíveis para as partes interessadas. Portanto, a primeira parte do processo de formação de um cientista de dados é dedicada aos mini-projetos, que desempenham um papel essencial no desenvolvimento de uma base sólida de conhecimento prático. Essa experiência prática prepara os futuros cientistas de dados para enfrentar os desafios do mundo real e contribuir de maneira significativa para a tomada de decisões baseadas em dados em uma variedade de campos e setores. Portanto, a compreensão e a aplicação dos princípios de trabalho com dados são habilidades essenciais que permeiam toda a jornada de formação de um cientista de dados.
Mini-projeto 1 - Análise de Redes Sociais (Mini-projeto 1 - Análise de Redes Sociais) R
Mini-projeto 2 - Análise de Risco de Crédito (Mini-projeto 2 - Análise de Risco de Crédito) R
Mini-projeto 3 - Análise de variância (ANOVA) (Mini-projeto 3 - Análise de variância (ANOVA)) R
Mini-projeto 4 - Análise de Redes Sociais (Mini-projeto 4 - Análise exploratória de dados - Socioeconômicos) R
Mini-projeto 5 - Análise financeira SQL e Regressão linear (Mini-projeto 5 - Análise financeira SQL e Regressão linear) R
Mini-projeto 6 - Cancer (Mini-projeto 6 - Identificando ocorrência de Cancer) R
Mini-projeto 7 - Customer Churn Analyticss (Mini-projeto 7 - Customer Churn Analytics) R
Mini-projeto 8 - Fraud card (Mini-projeto 8 - Fraud card) R
Mini-projeto 9 - Mapeando a Ocorrência do vírus zika (Mini-projeto 9 - Mapeando a Ocorrência do vírus zika) R
Mini-projeto 10 - Modelos estatisticos (Mini-projeto 10 - Modelos estatisticos) R
Mini-projeto 11 - Pib (Mini-projeto 11 - Pib) R
Mini-projeto 12 - Prevendo Despesas Hospitalares (Mini-projeto 12 - Prevendo Despesas Hospitalares) R
Mini-projeto 13 - Séries Temporais (Mini-projeto 13 - Séries Temporais) R
Mini-projeto 14 - Teste estatístico n satisfeita (Mini-projeto 14 - Teste estatístico n satisfeita) R
Mini-projeto 15 - Testes Estatísticos (Mini-projeto 15 - Testes Estatísticos) R
Mini-projeto 16 - Text Analytics em Recursos Humanos (Mini-projeto 16 - Text Analytics em Recursos Humanos) R
Mini-projeto 17 - Machine Learning em Marketing Digital Prevendo Número de Usuários Convertidos (Mini-projeto 17 - Machine Learning em Marketing Digital Prevendo Número de Usuários Convertidos) R
Mini-projeto 18 - Machine Learning em Marketing Digital Prevendo a Probabilidade de Conversão do Lead (Mini-projeto 18 - Machine Learning em Marketing Digital Prevendo a Probabilidade de Conversão do Lead) R
Mini-projeto 1 - Processo de construção treinamento avaliação de modelos para classificação (Mini-projeto 1 - Processo de construção treinamento avaliação de modelos para classificação) Notebook
Mini-projeto 2 - Mini-projeto 2 - Processo de Construção, Treinamento, avaliação seleção de modelos rg (Mini-projeto 2 - Mini-projeto 2 - Processo de Construção, Treinamento, avaliação seleção de modelos rg) Notebook
Mini-projeto 3 - Mini-projeto 3 - Prevendo a cotação de criptomoedas tempo real (Mini-projeto 3 - Mini-projeto 3 - Prevendo a cotação de criptomoedas tempo real) Notebook
Mini-projeto 4 - Definição do Problema e Fonte de Dados (Mini-projeto 4 - Definição do Problema e Fonte de Dados) Notebook
Mini-projeto 5 - Machine learning engenharia civil com apache spark (Mini-projeto 5 - Machine learning engenharia civil com apache spark) Notebook
Mini-projeto 6 - Análise de dados de sensores iot (Mini-projeto 6 - Análise de dados de sensores iot) Notebook
Mini-projeto 7 - Sistema de Recomendação (Mini-projeto 7 - Sistema de Recomendação) Notebook
Mini-projeto 1 - Importando banco de dados oracle com HDFS (Mini-projeto 1 - Importando banco de dados oracle com HDFS) python
Mini-projeto 2 - Prevendo casos de doenças cardíacas (Mini-projeto 2 - Prevendo casos de doenças cardíacas) python
Mini-projeto 3 - Design de job mapreduce com spark para os gastos totais por cliente (Mini-projeto 3 - Design de job mapreduce com spark para os gastos totais por cliente) python
Mini-projeto 1 - Machine learning K-NN (Mini-projeto 1 - Machine learning K-NN) Notebook
Mini-projeto 2 - Rede neural com tensorflow para classificação imagens vestuário (Mini-projeto 2 - Rede neural com tensorflow para classificação imagens vestuário) Notebook
Mini-projeto 3 - Classificador Spam com Naive bayes (Mini-projeto 3 - Classificador Spam com Naive bayes) Notebook
Mini-projeto 4 - Otimização retorno de investimentos (Mini-projeto 4 - Otimização retorno de investimentos) Notebook
Mini-projeto 5 - Otimização sistemas de voos (Mini-projeto 5 - Otimização sistemas de voos) Notebook
Mini-projeto 1 - Health Analytics (Mini-projeto 1 - Health Analytics) Notebook
Mini-projeto 2 - AI Bot Trader (Mini-projeto 2 - AI Bot Trader) Notebook
Mini-projeto 3 - People Analytics (Mini-projeto 3 - People Analytics) Notebook
Mini-projeto 4 - Análise de Risco (Mini-projeto 4 - Análise de Risco) Notebook
Mini-projeto 5 - Data quality detecção de fraudes (Mini-projeto 5 - Data quality detecção de fraudes) Notebook
Mini-projeto 6 - Detecção de fraudes em transações vendas online (Mini-projeto 6 - Detecção de fraudes em transações vendas online) Notebook
Mini-projeto 7 - Text Analytics Para Analisar a Reação do mercado (Mini-projeto 7 - Text Analytics Para Analisar a Reação do mercado) Notebook
Mini-projeto 8 - Análise de preço e análise textual previsão de ativos financeiros (Mini-projeto 9 - Análise de preço e análise textual previsão de ativos financeiros) Notebook
Mini-projeto 10 - Supply chain analytics (Mini-projeto 10 - Supply chain analytics) Notebook
Mini-projeto 11 - Prevendo riscos em supply chain (Mini-projeto 11 - Prevendo riscos em supply chain) Notebook
Projeto 01 - Logística prevendo o consumo de energia de carros elétricos - (Big Data Analytics com R e Microsoft Azure Machine Learning) R
Projeto 02 - Segurança do trabalho prevendo a eficiência de extintores de incendio - (Big Data Analytics com R e Microsoft Azure Machine Learning) R
Projeto 03 - Análise de risco no transporte público - (Big Data Real-Time Analytics com Python e Spark) Python_Notebook Apresetação em PDF
Projeto 04 - Análise de sentimento em tweets ChatGPT com pyspark (Big Data Real-Time Analytics com Python e Spark) notebook_python
Projeto 05 - Implementando Slow Changing - (Engenharia de Dados com Hadoop e Spark)
Projeto 06 - Processamento de Logs em Tempo Real - (Engenharia de Dados com Hadoop e Spark)
Projeto 07 - Medicina personalizada redefinindo o tratamento de câncer - (Machine learning) notebook_python
Projeto 08 - Modelagem preditiva em iot - (Machine learning) R
Projeto 09 - Prevendo tendências macroeconômicas - (Business analytics) notebook
Projeto 10 - Sistema de Recomendação rede varejo - (Business analytics) notebook
Projeto 11 - Modelos Preditivos - (Visualização de Dados e Design de Dashboards)
Projeto 12 - Design de Arquitetura Para Projetos IoT analytics - (Visualização de Dados e Design de Dashboards)
Programação Python, R.
Machine learning: Scikit-learn.
Deep learning: Keras, Tensorflow.
Leitura CSV: Pandas.
Análise de dados: Seaborn, Matplotlib.
Modelo machine learning - Processo de linguagem natural: NLTK, TextBlob, Vander.
Para rodar esse projeto, você vai precisar adicionar as seguintes variáveis de ambiente no seu .env
API_KEY
ANOTHER_API_KEY
Instalação das bibliotecas para esse projeto no python.
conda install pandas
conda install scikitlearn
conda install numpy
conda install scipy
conda install matplotlib
python==3.6.4
numpy==1.13.3
scipy==1.0.0
matplotlib==2.1.2
Instalação do Python É altamente recomendável usar o anaconda para instalar o python. Clique aqui para ir para a página de download do Anaconda https://www.anaconda.com/download. Certifique-se de baixar a versão Python 3.6. Se você estiver em uma máquina Windows: Abra o executável após a conclusão do download e siga as instruções.
Assim que a instalação for concluída, abra o prompt do Anaconda no menu iniciar. Isso abrirá um terminal com o python ativado. Se você estiver em uma máquina Linux: Abra um terminal e navegue até o diretório onde o Anaconda foi baixado. Altere a permissão para o arquivo baixado para que ele possa ser executado. Portanto, se o nome do arquivo baixado for Anaconda3-5.1.0-Linux-x86_64.sh, use o seguinte comando: chmod a x Anaconda3-5.1.0-Linux-x86_64.sh.
Agora execute o script de instalação usando.
Depois de instalar o python, crie um novo ambiente python com todos os requisitos usando o seguinte comando
conda env create -f environment.yml
Após a configuração do novo ambiente, ative-o usando (windows)
activate "Nome do projeto"
ou se você estiver em uma máquina Linux
source "Nome do projeto"
Agora que temos nosso ambiente Python todo configurado, podemos começar a trabalhar nas atribuições. Para fazer isso, navegue até o diretório onde as atribuições foram instaladas e inicie o notebook jupyter a partir do terminal usando o comando
jupyter notebook
# Importação das bibliotecas de nlp
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# Gerar dados de exemplo
X, y = make_classification(n_samples=1000, n_features=10, random_state=42)
# Dividir os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Criar o classificador Gradient Boosting
gb_classifier = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)
# Treinar o classificador
gb_classifier.fit(X_train, y_train)
# Fazer previsões no conjunto de teste
y_pred = gb_classifier.predict(X_test)
# Calcular a precisão do modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisão do modelo:", accuracy)
## Aplicação em R
library(xgboost)
# Gerar dados de exemplo
data <- matrix(rnorm(1000), ncol = 10)
labels <- sample(c(0, 1), 100, replace = TRUE)
# Dividir os dados em conjunto de treinamento e teste
train_indices <- sample(1:100, 80)
train_data <- data[train_indices, ]
train_labels <- labels[train_indices]
test_data <- data[-train_indices, ]
test_labels <- labels[-train_indices]
# Criar a matriz de dados específica do xgboost
dtrain <- xgb.DMatrix(data = as.matrix(train_data), label = train_labels)
dtest <- xgb.DMatrix(data = as.matrix(test_data), label = test_labels)
# Definir os parâmetros do modelo
params <- list(
booster = "gbtree",
objective = "binary:logistic",
eta = 0.1,
max_depth = 3,
nthread = 2,
eval_metric = "error"
)
# Treinar o modelo
model <- xgb.train(
params = params,
data = dtrain,
nrounds = 100
)
# Fazer previsões no conjunto de teste
pred <- predict(model, dtest)
# Calcular a precisão do modelo
accuracy <- sum(pred > 0.5 == test_labels) / length(test_labels)
print(paste("Precisão do modelo:", accuracy))
Para suporte, mande um email para rafaelhenriquegallo@gmail.com