Análise dos Dados - Segmentation-Fault-Machine-Learning/Knowledge GitHub Wiki

Introdução

Na análise de dados nós utilizamos o processo de Engenharia de Características. Nos próximos tópicos será explicado o que é Engenharia de Características e como a utilizamos no problema das bactérias.

O que é Engenharia de Características?

“A Engenharia de características é o processo de transformação de dados crus em características que melhor representam o problema fundamental para os modelos preditivos, resultando em modelo com a precisão melhorada para dados não vistos. [...] a engenharia de características é desenhado manualmente o que as entradas x deveriam ser” (MALISIEWICZ, 2014)[1].

Engenharia de Características é um tópico informal dentro de Aprendizado de Máquina, mas que é fundamental e bastante utilizado na área, pois resolve alguns problemas como poder conseguir o melhor possível resultado de um modelo de predição. As características dos dados vão influenciar diretamente os modelos de predição e os resultados que poderão ser alcançados.

Como o utilizamos no problema das bactérias?

Utilizamos a engenharia de características para comparar quais eram as caracterśticas mais importantes para o modelo de predição das bactérias, que no caso as features eram: comprimento corpo, largura corpo, comprimento flagelo, largura flagelo, volume flagelo, volume corpo e tipo.

Para isso, comparamos, em dois algoritmos diferentes, qual seria o melhor resultado entre largura flagelo x largura corpo, largura flagelo x comprimento flagelo e volume flagelo x volume corpo.

Os resultados de cada algorítmo poderá ser encontrados nos seguintes links:

A análise dessas features se encontra no tutorial jupyter nesse link:

Passo 1

Análise das features fornecidas e derivadas, para visualizar todas as features utilizamos uma técnica chamada T-SNE (Stochastic Neighbor Embedding).

t-sne


Passo 2

Após essa visão mais geral começamos a plotar as features dois a dois.

Comp. Corpo X Larg. Corpofeature 1 Comp. Flagelo X Larg. Flagelofeature 2
Vol. Corpo X Vol. Flagelofeature 3 Prop. Corpo X Prop. Flagelo feature 4

Para as características Volume do Corpo e Volume do Flagelo, foi feita uma aproximação da forma observada das bacterias à um cilindro. Sendo assim, utilizamos a formula de volume do cilindro para derivar ambas características. Bacteria


Passo 3

Após a plotagem escolhemos as feature que estão mais distantes e que existe pouco ruído, depois de alguns testes escolhemos:

  • Comprimento Flagelo
  • Largura Flagelo
  • Volume do Corpo
  • Volume do Flagelo

Segue a plotagem do resultado deste processo

resultado


Referências

[1] - Tomasz Malisiewicz Citation - https://www.quora.com/What-is-feature-engineering