본문 바로가기
DATA Science/Google Machine Learning

L₂ 정규화

by Rainbound-IT 2021. 7. 25.
반응형

다음에 제시된 일반화 곡선은 학습 반복 횟수에 대해 학습 세트와 검증 세트의 손실을 보여줍니다.

그림 1. 학습 세트와 검증 세트에서의 손실

 

그림 1은 학습 손실은 점차 감소하지만 검증 손실은 결국 증가하는 모델을 보여줍니다. 즉, 이 일반화 곡선은 모델이 학습 세트의 데이터에 대해 과적합하다는 것을 보여줍니다. 이전에 언급했던 Occam 개념을 활용하면 복잡한 모델에 페널티를 부여하는 정규화라는 원칙을 사용하여 과적합을 방지할 수 있을지도 모릅니다.

다시 말해 다음은 단순히 손실을 최소화하는 것만을 목표로 삼습니다 (경험적 위험 최소화).

최소화 (손실 (데이터|모델) )

이제 구조적 위험 최소화를 통해 다음과 같이 손실과 복잡도를 함께 최소화해 보겠습니다.

 

최소화 (손실 (데이터|모델) + 복잡도 (모델) )

 

이제 우리의 학습 최적화 알고리즘은 모델이 데이터에 얼마나 적합한지 측정하는 손실 항과 모델 복잡도를 측정하는 정규화 항의 함수가 됩니다.

본 머신러닝 단기집중과정에서는 일반적인 (그리고 어느 정도 서로 관련이 있는) 2가지 방법으로 모델 복잡도를 다루게 됩니다.

  • 모델의 모든 특성의 가중치에 대한 함수로서의 모델 복잡도
  • 0이 아닌 가중치를 사용하는 특성의 총 개수에 대한 함수로서의 모델 복잡도 (후속 강의에서 이 접근 방식을 다룹니다.)

모델 복잡도가 가중치에 대한 함수인 경우 높은 절대값을 사용하는 특성 가중치는 낮은 절대값을 사용하는 특성 가중치보다 더 복잡합니다.

모든 특성 가중치를 제곱한 값의 합계로서 정규화 항을 정의하는 L2 정규화 공식을 사용하여 복잡도를 수치화할 수 있습니다.

정규화항L2정규화 항=||w||22=w12+w22+...+wn2

이 공식에서 0에 가까운 가중치는 모델 복잡도에 거의 영향을 미치지 않는 반면, 이상점 가중치는 큰 영향을 미칠 수 있습니다.

예를 들어 다음과 같은 가중치를 갖는 선형 모델이 있습니다.

 

{w1=0.2,w2=0.5,w3=5,w4=1,w5=0.25,w6=0.75}

 

위 모델의 L2 정규화 항은 다음과 같이 26.915입니다.

 

w12+w22+w32+w42+w52+w62

=0.22+0.52+52+12+0.252+0.752

=0.04+0.25+25+1+0.0625+0.5625

=26.915

 

하지만 제곱한 값이 25인 위의 굵은 글씨체로 된 w3는 거의 모든 복잡도에 기여합니다. 다른 5개의 모든 가중치를 제곱한 값의 합계는 L2 정규화 항에 1.915를 더하기만 하면 됩니다.

 

 

주요 용어

반응형

댓글