공분산과 상관계수는 무엇일까요 - AInsteins/AI-Tech-Interview Wiki

  • 공분산

    • 어떻게 퍼져있는지를 나타내는 것

    • 두 확률변수 사이의 선형관계에 대해 정보를 알려줌

    • 확률변수 X의 편차(평균으로부터 얼마나 떨어져 있는지)와 확률변수 Y의 편차를 곱한 것의 평균값이다.

    • $Cov(X,Y)=E((X−μX)(Y−μY))$

    • 변수 간에 양의 상관관계가 있는지, 음의 상관관계가 있는지 정도를 알려준다. 하지만 상관관계가 얼마나 큰지는 제대로 반영하지 못한다.

    • 공분산

      • Cov(X, Y) > 0 X가 증가 할 때 Y도 증가한다.
      • Cov(X, Y) < 0 X가 증가 할 때 Y는 감소한다.
      • Cov(X, Y) = 0 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없으며 두 변수는 서로 독립적인 관계에 있음을 알 수 있다.

    그러나 두 변수가 독립적이라면 공분산은 0이 되지만, 공분산이 0이라고 해서 항상 독립적이라고 할 수 없다.

    • 문제점 : X와 Y의 단위의 크기에 영향을 받음→ 상관계수로 보완
  • 상관계수

    • 확률변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화시킨 것이다. 즉, 공분산에 각 확률변수의 분산을 나눠주었다.

    • $ρ=Cov(X,Y)Var(X)⋅Var(Y),−1≤ρ≤1$

    • 양의 상관관계가 있는지 음의 상관관계가 있는지 알려줄 뿐만 아니라, 그 상관성이 얼마나 큰지도 알려준다. 1 또는 -1에 가까울수록 상관성이 큰 것이고, 0에 가까울수록 상관성이 작은 것이다.

    • 상관 계수의 성질

      1. 상관계수의 절대값은 1을 넘을 수 없다.

      2. 확률변수 X, Y가 독립이라면 상관계수는 0이다.

      3. X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다. 양의 선형관계면 1, 음의 선형관계면 -1