L1,L2 regularization - BD-SEARCH/MLtutorial GitHub Wiki

본문을 읽기 전에 regularization을 읽고 μ˜€μ‹œλ©΄ μ’‹μŠ΅λ‹ˆλ‹€.


1. L1, L2 norm

1-1. Norm?

norm? λ²‘ν„°μ˜ 크기(길이)λ₯Ό μΈ‘μ •ν•˜λŠ” 방법. 두 벑터 μ‚¬μ΄μ˜ 거리λ₯Ό μΈ‘μ •ν•˜λŠ” 방법

image

  • p : Norm 의 차수
    • p = 1 : L1 Norm
    • P = 2 : L2 Norm
  • n은 ν•΄λ‹Ή λ²‘ν„°μ˜ μ›μ†Œ 수

(1) L1 norm

  • 벑터 p, q 의 각 μ›μ†Œλ“€μ˜ 차이의 μ ˆλŒ€κ°’μ˜ ν•©

vector p = (3,1,-3), q = (5,0,7)

p,q의 L1 norm : |3-5| + |1-0| + |-3 -7| = 2 + 1 + 10 = 13

(2) L2 norm

image

  • 벑터 p, q 의 μœ ν΄λ¦¬λ””μ•ˆ 거리(직선 거리)

  • q κ°€ 원점일 경우 벑터 p, q의 L2 Norm : 벑터 p 의 μ›μ μœΌλ‘œλΆ€ν„°μ˜ 직선거리λ₯Ό 의미

    • p = (x_1, x_2, ... , x_n), q = (0, 0, ... , 0)

(3) Difference btw L1, L2 norm

image

  • L1 Norm : 빨간색, νŒŒλž€μƒ‰, λ…Έλž€μƒ‰ μ„ μœΌλ‘œ ν‘œν˜„ κ°€λŠ₯

  • L2 Norm : μ΄ˆλ‘μƒ‰ μ„ μœΌλ‘œλ§Œ ν‘œν˜„ κ°€λŠ₯

  • L1 Norm 은 μ—¬λŸ¬κ°€μ§€ path λ₯Ό κ°€μ§€μ§€λ§Œ L2 Norm 은 Unique shortest path λ₯Ό 가진닀

    • Ex.
      • p = (1, 0), q = (0, 0) 일 λ•Œ L1 Norm = 1, L2 Norm = 1 둜 값은 κ°™μ§€λ§Œ μ—¬μ „νžˆ Unique shortest path.

1-2. L1, L2 Loss

(1) L1 Loss

image

y_i : label

f(x_i) : output

L1 Loss : labelκ³Ό output μ‚¬μ΄μ˜ 였차 κ°’μ˜ μ ˆλŒ€κ°’μ„ κ΅¬ν•œ ν›„ κ·Έ μ˜€μ°¨λ“€μ˜ ν•©

  • λ™μ˜μ–΄
    • Least absolute deviations(LAD)
    • Least absolute Errors(LAE)
    • Least absolute value(LAV)
    • Least absolute residual(LAR)
    • Sum of absolute deviations

(2) L2 Loss

image

L2 Loss : 였차의 제곱의 ν•©

  • λ™μ˜μ–΄ : Least squares error(LSE)

(3) Difference btw L1 Loss, L2 Loss

  • L1 Loss의 단점 : 0인 μ§€μ μ—μ„œ 미뢄이 λΆˆκ°€λŠ₯ν•˜λ‹€
  • L2 Loss λŠ” μ§κ΄€μ μœΌλ‘œ 였차의 μ œκ³±μ„ λ”ν•˜κΈ° λ•Œλ¬Έμ— Outlier 에 더 큰 영ν–₯을 λ°›λŠ”λ‹€.
    • L1 Loss κ°€ L2 Loss 에 λΉ„ν•΄ Outlier 에 λŒ€ν•˜μ—¬ 더 Robustν•˜λ‹€.
    • L1 Loss : Outlier κ°€ μ λ‹Ήνžˆ λ¬΄μ‹œλ˜κΈΈ 원할 λ•Œ μ‚¬μš©
    • L2 Loss : Outlier 의 λ“±μž₯에 신경써야 ν•˜λŠ” 경우

2. L1, L2 regularization

2-1. L1 regularization (Lasso)

(1) μˆ˜μ‹

image

  • μ‹€ν—˜ case에 따라 μ•žμ˜ 1/n/ 1/2κ°€ λ‹¬λΌμ§€λŠ” κ²½μš°κ°€ μžˆλ‹€.
  • Ξ» : μƒμˆ˜. 0에 κ°€κΉŒμšΈ 수둝 μ •κ·œν™”μ˜ νš¨κ³ΌλŠ” 없어진닀

  • C_0 : μ›λž˜μ˜ cost function

(2) νŠΉμ§•

  • cost function에 κ°€μ€‘μΉ˜μ˜ μ ˆλŒ€κ°’μ„ λ”ν•΄μ€€λ‹€λŠ” 것이 μ€‘μš”

    • κ°€μ€‘μΉ˜ w에 λŒ€ν•΄ νŽΈλ―ΈλΆ„μ„ ν•˜λ©΄
    • wκ°’ 자체λ₯Ό μ€„μ΄λŠ” 것이 μ•„λ‹Œ w의 λΆ€ν˜Έμ— 따라 μƒμˆ˜κ°’μ„ λΉΌμ£ΌλŠ” λ°©μ‹μœΌλ‘œ regularization μˆ˜ν–‰
  • 기쑴의 cost function 에 κ°€μ€‘μΉ˜μ˜ 크기가 ν¬ν•¨λ˜λ©΄μ„œ κ°€μ€‘μΉ˜κ°€ λ„ˆλ¬΄ 크지 μ•Šμ€ λ°©ν–₯으둜 ν•™μŠ΅

  • L1 Regularization 을 μ‚¬μš©ν•˜λŠ” Regression model

    : Least Absolute Shrinkage and Selection Operater(Lasso) Regression

2-2. L2 regularization (Lidge)

(1) μˆ˜μ‹

image

  • μ‹€ν—˜ case에 따라 μ•žμ˜ 1/n/ 1/2κ°€ λ‹¬λΌμ§€λŠ” κ²½μš°κ°€ μžˆλ‹€.
  • L : 기쑴의 cost function
  • n : train data의 수
  • Ξ» : regularization λ³€μˆ˜. μƒμˆ˜. 0에 κ°€κΉŒμšΈ 수둝 μ •κ·œν™”μ˜ νš¨κ³ΌλŠ” 없어진닀
  • w : κ°€μ€‘μΉ˜
  • C_0 : μ›λž˜μ˜ cost function

(2) νŠΉμ§•

  • L(기쑴의 cost function)에 κ°€μ€‘μΉ˜λ₯Ό ν¬ν•¨ν•˜μ—¬ λ”ν•¨μœΌλ‘œμ¨

    • L이 μž‘μ•„μ§€λŠ” λ°©ν–₯으둜 ν•™μŠ΅
    • w이 μž‘μ•„μ§€λŠ” λ°©ν–₯으둜 ν•™μŠ΅
      • w에 λŒ€ν•΄ νŽΈλ―ΈλΆ„ν•˜λ©΄ 값이 μž‘μ•„μ§€λŠ” λ°©ν–₯으둜 μ§„ν–‰ν•˜κ²Œ λœλ‹€ : Weight decay
      • weight decay에 μ˜ν•΄ νŠΉμ • κ°€μ€‘μΉ˜κ°€ λΉ„μ΄μƒμ μœΌλ‘œ 컀지고 ν•™μŠ΅μ— 큰 영ν–₯을 λΌμΉ˜λŠ” 것을 방지
  • L2 Regularization 을 μ‚¬μš©ν•˜λŠ” Regression model

    : Ridge Regression

2-3. Difference btw L1,L2 regularization

(1) Regularization

  • κ°€μ€‘μΉ˜ w κ°€ μž‘μ•„μ§€λ„λ‘ ν•™μŠ΅ν•œλ‹€λŠ” 것? Local noise 에 영ν–₯을 덜 받도둝 ν•˜κ² λ‹€λŠ” 것
  • Outlier 의 영ν–₯을 더 적게 받도둝 ν•˜κ² λ‹€λŠ” 것

(2) μ˜ˆμ‹œ

image

  • a,b에 λŒ€ν•˜μ—¬ L1 norm κ³„μ‚°μ‹œ

image

  • a,b에 λŒ€ν•˜μ—¬ L2 norm κ³„μ‚°μ‹œ

image

  • L1 Norm: κ²½μš°μ— 따라 νŠΉμ • Feature(λ²‘ν„°μ˜ μš”μ†Œ) 없이도 같은 값을 λ‚Ό 수 μžˆλ‹€
  • L2 Norm : 각각의 벑터에 λŒ€ν•΄ 항상 Unique ν•œ 값을 λ‚Έλ‹€.

image

(3) κ²°λ‘ 

  • L1 Norm 은 νŒŒλž€μƒ‰ μ„  λŒ€μ‹  빨간색 선을 μ‚¬μš©ν•˜μ—¬ νŠΉμ • Feature λ₯Ό 0으둜 μ²˜λ¦¬ν•˜λŠ” 것이 κ°€λŠ₯ν•˜λ‹€.
  • L1 Norm 은 Feature selection 이 κ°€λŠ₯
    • 이 νŠΉμ§•μ€ L1 Regularization 에 λ™μΌν•˜κ²Œ 적용 될 수 μžˆλ‹€.
    • L1 은 Sparse model(coding) 에 적합
    • convex optimization 에 μœ μš©ν•˜κ²Œ 쓰인닀.

image

단, L1 Regularization 의 경우 μœ„ 그림처럼 λ―ΈλΆ„ λΆˆκ°€λŠ₯ν•œ 점이 있기 λ•Œλ¬Έμ— Gradient-base learning μ—λŠ” μ£Όμ˜κ°€ ν•„μš”ν•˜λ‹€.

reference