Analyse PCA - abuck2/Analyse GitHub Wiki

En réalisant une première analyse en composantes principales sur toutes les variables:

  1. Quels sont les axes factoriels a retenir
    Selon la règle de la valeur propre >1 : 1 à 4
    Selon la règle variance/composantes < variance de l'axe : axes 1 à 4
    <plot des eigenvalue à faire>

  2. Interprétation des coordonnées/corrélations avec les axes
    Axe 1:
    Fixed.acidity, citric.acidity sont fortement corrélés +, density et sulphates ont une corrélation moyenne +
    Fixed acidity et citric acidity sont bien représentés sur le graphe (cos2 >0.7)
    density est moyennement représenté
    pH forte corrélation -,
    ph est moyennement représenté

=> cet axe représente l'acidité du vin
Axe 2:
Alcohol et quality forte corrélation +
Ils sont moyennement représentés sur l'axe ( cos2 +- 0.5)
Sulphate corrélation positive moyenne, mais il est faiblement représenté
density et volatile acidity corrélation négative moyenne et faiblement représentés aussi
=> axe représentant le taux d'alcool du vin, associé à la qualité subjective

Axe 3 :
Forte corrélation de total.sulfur.dioxide et free.sulfur.dioxide : bien représentés : 0.74 - 0.64
Moyenne corrélation de residual sugar , faible représentation
=> axe du taux de souffre

Axe 4 :
Chlorides et sulphates : cor moyenne positive et moyennement représenté
Residual sugar : correlation negative moyenne et faiblement représenté

=> problèmes : Les relations sont essentiellements non linéaires, et beaucoup de variables sont non normales. C'est donc une violation des hypothèses de la pca. Il faudrait extraire les variables non linéaires, et uniquement faire une acp sur les variables linéaires.