Análise dos Dados - Segmentation-Fault-Machine-Learning/Knowledge GitHub Wiki
Introdução
Na análise de dados nós utilizamos o processo de Engenharia de Características. Nos próximos tópicos será explicado o que é Engenharia de Características e como a utilizamos no problema das bactérias.
O que é Engenharia de Características?
“A Engenharia de características é o processo de transformação de dados crus em características que melhor representam o problema fundamental para os modelos preditivos, resultando em modelo com a precisão melhorada para dados não vistos. [...] a engenharia de características é desenhado manualmente o que as entradas x deveriam ser” (MALISIEWICZ, 2014)[1].
Engenharia de Características é um tópico informal dentro de Aprendizado de Máquina, mas que é fundamental e bastante utilizado na área, pois resolve alguns problemas como poder conseguir o melhor possível resultado de um modelo de predição. As características dos dados vão influenciar diretamente os modelos de predição e os resultados que poderão ser alcançados.
Como o utilizamos no problema das bactérias?
Utilizamos a engenharia de características para comparar quais eram as caracterśticas mais importantes para o modelo de predição das bactérias, que no caso as features eram: comprimento corpo, largura corpo, comprimento flagelo, largura flagelo, volume flagelo, volume corpo e tipo.
Para isso, comparamos, em dois algoritmos diferentes, qual seria o melhor resultado entre largura flagelo x largura corpo, largura flagelo x comprimento flagelo e volume flagelo x volume corpo.
Os resultados de cada algorítmo poderá ser encontrados nos seguintes links:
A análise dessas features se encontra no tutorial jupyter nesse link:
Passo 1
Análise das features fornecidas e derivadas, para visualizar todas as features utilizamos uma técnica chamada T-SNE (Stochastic Neighbor Embedding).
Passo 2
Após essa visão mais geral começamos a plotar as features dois a dois.
Comp. Corpo X Larg. Corpo | Comp. Flagelo X Larg. Flagelo |
---|---|
Vol. Corpo X Vol. Flagelo | Prop. Corpo X Prop. Flagelo |
Para as características Volume do Corpo e Volume do Flagelo, foi feita uma aproximação da forma observada das bacterias à um cilindro. Sendo assim, utilizamos a formula de volume do cilindro para derivar ambas características.
Passo 3
Após a plotagem escolhemos as feature que estão mais distantes e que existe pouco ruído, depois de alguns testes escolhemos:
- Comprimento Flagelo
- Largura Flagelo
- Volume do Corpo
- Volume do Flagelo
Segue a plotagem do resultado deste processo
Referências
[1] - Tomasz Malisiewicz Citation - https://www.quora.com/What-is-feature-engineering