Sobre • Funcionalidades • Conclusão • Tecnologias • Licença
Este notebook é uma forma de praticar meus conhecimentos em ciência de dados, principalmente com a redução de dimensionalidade da biblioteca SKLearn. Ele nos orienta em um fluxo de trabalho para resolver um problema em um cenário de classificação de um câncer através de 33 dados, onde através de algoritmos árvore de decisão e redução de dimensionalidade, será possivel reduzir o número de parametros presentes nos modelos sem afetar sua precisão.
Será estudado metodos automatizados para a seleção de features, tais como: SelectKBest e o RFE. E também será realizado uma análise dos dados e selecionado a remoção de features que não apresentem um impacto na precisão do modelo. Por fim, os modelos serão comparados e documentados. Também será utilizado o RFECV (RFE com Cross Validation) para determinar qual o menor número de features necessários para atingirmos o melhor resultado e quais features são necessários para chegar a esse resultado.
Para visualização de dados de alta dimensionalidade em um plano, é necessário realizar transformações, para isso irá ser utilizado os métodos PCA e o t-SNE, permitindo assim uma melhoraram para a apresentação de tais dados.
O principal objetivo deste notebook é servir como um guia de fluxo de trabalho passo a passo, permitindo que eu mesmo revise este caderno e sirva de estudo para casos futuros.
Este notebook foi desenvolvido dentro do ambiente Google Colab.
- Pré-Processamento;
- Geração de Modelos de Arvore de Decisão;
- Visualização de Dados;
Dentre os modelos estudados, vale evidenciar que todos se destacaram em métrica em particular. Dentre os destaques estão:
- Modelo 5 Colunas com KBest: Obteve uma precisão de 91.23%;
- Modelo 5 Colunas com RFE: Obteve uma precisão de 96.49%;
- Modelo 23 Colunas com RFECV: Obteve uma precisão de 95.91%;
- Modelo 28 Colunas: Obteve uma precisão de 97.66%;
E para a vizualização dos dados de alta dimensionalidade, foram utilizadas os seguintes módulos:
- Visualização de Dados com PCA;
- Visualização de Dados com T-SNE;
As seguintes ferramentas foram usadas na construção do projeto:
Este projeto esta sobe a licença MIT.
Feito com ❤️ por Matheus Pereira 👋🏽 Entre em contato!