Skip to content

Project with machine learning using SKLearn and Dimensionality Reduction

License

Notifications You must be signed in to change notification settings

matheusmmmp/SKLearn-HealthDataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Tratamento de Dados de Alta Dimensionalidade e Modelagem de Classificadores de Câncer

Status: Concluído🚀

SobreFuncionalidadesConclusãoTecnologiasLicença

✎Sobre o projeto

Este notebook é uma forma de praticar meus conhecimentos em ciência de dados, principalmente com a redução de dimensionalidade da biblioteca SKLearn. Ele nos orienta em um fluxo de trabalho para resolver um problema em um cenário de classificação de um câncer através de 33 dados, onde através de algoritmos árvore de decisão e redução de dimensionalidade, será possivel reduzir o número de parametros presentes nos modelos sem afetar sua precisão.

Será estudado metodos automatizados para a seleção de features, tais como: SelectKBest e o RFE. E também será realizado uma análise dos dados e selecionado a remoção de features que não apresentem um impacto na precisão do modelo. Por fim, os modelos serão comparados e documentados. Também será utilizado o RFECV (RFE com Cross Validation) para determinar qual o menor número de features necessários para atingirmos o melhor resultado e quais features são necessários para chegar a esse resultado.

Para visualização de dados de alta dimensionalidade em um plano, é necessário realizar transformações, para isso irá ser utilizado os métodos PCA e o t-SNE, permitindo assim uma melhoraram para a apresentação de tais dados.

O principal objetivo deste notebook é servir como um guia de fluxo de trabalho passo a passo, permitindo que eu mesmo revise este caderno e sirva de estudo para casos futuros.

Este notebook foi desenvolvido dentro do ambiente Google Colab.


⚙Funcionalidades

  • Pré-Processamento;
  • Geração de Modelos de Arvore de Decisão;
  • Visualização de Dados;

🔬Conclusão

Dentre os modelos estudados, vale evidenciar que todos se destacaram em métrica em particular. Dentre os destaques estão:

  • Modelo 5 Colunas com KBest: Obteve uma precisão de 91.23%;
  • Modelo 5 Colunas com RFE: Obteve uma precisão de 96.49%;
  • Modelo 23 Colunas com RFECV: Obteve uma precisão de 95.91%;
  • Modelo 28 Colunas: Obteve uma precisão de 97.66%;

E para a vizualização dos dados de alta dimensionalidade, foram utilizadas os seguintes módulos:

  • Visualização de Dados com PCA;

Imagem Demonstrativa 1

  • Visualização de Dados com T-SNE;

Imagem Demonstrativa 1


🛠Tecnologias

As seguintes ferramentas foram usadas na construção do projeto:


📝Licença

Este projeto esta sobe a licença MIT.

Feito com ❤️ por Matheus Pereira 👋🏽 Entre em contato!

About

Project with machine learning using SKLearn and Dimensionality Reduction

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published