[기계학습][5주차] 다중선형회귀 이론 - mingoori0512/minggori GitHub Wiki
정규화
-정규화란?
- 회귀계수가 가질 수 있는 값에 제약조건을 부여하여 미래 데이터에 대한 오차 기대
- 미래 데이터에 대한 오차의 기대 값은 모델의 Bias와 variance로 분해 가능.
- 정규화는 variance를 감소시켜 일반화 성능을 높이는 기법(단, 이 과정에서 bias가 증가할 수 있음)
- 학습 데이터를 잘 갖추고 있지만, 미래 데이터가 조금만 바뀌어도 예측값이 들쭉날쭉할 수 있음
- 강한 수준의 정규화를 수행한 결과로 학습 데이터에 대한 설명력을 다소 포기하는 대신 미래 데이터 변화에 상대적으로 안정적인 결과를 나타냄
Bias-Variance Decomposition
- Bias-Variance Decomposition란?
- 일반화(generalization) 성능을 높이는 정규화(Regularization), 앙상블(ensemble) 기법의 이론적 배경
- 학습에 쓰지 않은 미래 데이터에 대한 오차의 기대값을 모델의 Bias와 Variance로 분해하자는 내용
- Bias-Variance의 직관적인 이해
- 첫번째 그림을 보면 예측값(파란색 엑스표)의 평균이 과녁(Truth)과 멀리 떨어져 있어 Bias가 크고, 예측값들이 서로 멀리 떨어져 있어 Variance 또한 큼.
- 네번째 그림의 경우 Bias와 Variance 모두 작음. 제일 이상적임
* 부스팅(Boosting)은 Bias를 줄여 성능을 높이고, 라쏘회귀(Lasso Regression)는 Variance를 줄여 성능을 높이기는 기법임