[기계학습][5주차] 다중선형회귀 이론 - mingoori0512/minggori GitHub Wiki

정규화

-정규화란?

  • 회귀계수가 가질 수 있는 값에 제약조건을 부여하여 미래 데이터에 대한 오차 기대
  • 미래 데이터에 대한 오차의 기대 값은 모델의 Bias와 variance로 분해 가능.
  • 정규화는 variance를 감소시켜 일반화 성능을 높이는 기법(단, 이 과정에서 bias가 증가할 수 있음)
  • 학습 데이터를 잘 갖추고 있지만, 미래 데이터가 조금만 바뀌어도 예측값이 들쭉날쭉할 수 있음
  • 강한 수준의 정규화를 수행한 결과로 학습 데이터에 대한 설명력을 다소 포기하는 대신 미래 데이터 변화에 상대적으로 안정적인 결과를 나타냄

Bias-Variance Decomposition

  • Bias-Variance Decomposition란?
  • 일반화(generalization) 성능을 높이는 정규화(Regularization), 앙상블(ensemble) 기법의 이론적 배경
  • 학습에 쓰지 않은 미래 데이터에 대한 오차의 기대값을 모델의 Bias와 Variance로 분해하자는 내용
  • Bias-Variance의 직관적인 이해
  • 첫번째 그림을 보면 예측값(파란색 엑스표)의 평균이 과녁(Truth)과 멀리 떨어져 있어 Bias가 크고, 예측값들이 서로 멀리 떨어져 있어 Variance 또한 큼.
  • 네번째 그림의 경우 Bias와 Variance 모두 작음. 제일 이상적임 * 부스팅(Boosting)은 Bias를 줄여 성능을 높이고, 라쏘회귀(Lasso Regression)는 Variance를 줄여 성능을 높이기는 기법임