본문 바로가기
DATA Science/Google Machine Learning

단순성을 위한 정규화: 람다

by Rainbound-IT 2021. 7. 25.
반응형

모델 개발자는 람다라는 스칼라(정규화율이라고도 함)를 정규화 항의 값에 곱하여 정규화 항의 전반적인 영향을 조정합니다. 즉, 모델 개발자는 다음을 수행하는 것을 목표로 합니다.

최소화손실데이터모델복잡도모델최소화 (손실 (데이터|모델)+λ복잡도 (모델))

L2 정규화를 수행하면 모델에 다음과 같은 효과를 줄 수 있습니다.

  • 가중치 값을 0으로 유도(정확히 0은 아님)
  • 정규 (종 모양 또는 가우시안) 분포를 사용하여 가중치 평균을 0으로 유도

람다 값을 높이면 정규화 효과가 강화됩니다. 예를 들어 높은 람다 값에 대한 가중치 히스토그램은 그림 2처럼 보일 수 있습니다.

 

그림 2. 가중치 히스토그램

 

람다 값을 낮추면 그림 3과 같이 더 평평한 히스토그램이 산출되는 경향이 있습니다.

그림 3. 더 낮은 람다 값으로 생성된 가중치 히스토그램

 

람다 값을 선택할 때 세워야 할 목표는 단순성과 학습 데이터 적합성 사이에 적절한 균형을 맞추는 것입니다.

  • 람다 값이 너무 높으면 모델은 단순해지지만 데이터가 과소적합해질 위험이 있습니다. 그렇게 되면 모델은 유용한 예측을 수행할 만큼 학습 데이터에 대해 충분히 학습하지 못할 수 있습니다.
  • 람다 값이 너무 낮으면 모델은 더 복잡해지고 데이터가 과적합해질 위험이 있습니다. 모델이 학습 데이터의 특수성을 너무 많이 학습하게 되고 새로운 데이터로 일반화하지 못하게 됩니다.

참고: 람다를 0으로 설정하면 정규화가 완전히 제거됩니다. 이 경우 학습이 손실을 최소화하는 데에만 초점을 맞추게 되어 가장 높은 수준의 과적합 위험을 낳습니다.

이상적인 람다 값은 이전에 보지 못했던 새로운 데이터로 효과적으로 일반화되는 모델을 만들어냅니다. 하지만 이상적인 람다 값은 데이터 의존적이므로 조정

 L2 정규화와 학습률에 대해 자세히 알아보려면 여기를 클릭하세요.

더보기

학습률과 람다는 밀접하게 연결되어 있습니다. 강력한 L2 정규화 값은 특성 가중치를 0에 가깝게 유도하는 경향이 있습니다. 낮은 학습률(조기 중단 포함)도 종종 같은 효과를 가져오는데 이는 0과의 보폭 차이가 그다지 크지 않기 때문입니다. 결과적으로 학습률과 람다를 동시에 변경하면 혼동스러운 효과를 낳을 수 있습니다.

조기 중단이란 모델이 완전히 수렴되기 전에 학습을 끝내는 것을 뜻합니다. 실제로 학습이 온라인 (연속적) 방식일 경우 일정 부분 암묵적으로 학습을 조기에 중단하는 경우가 많습니다. 즉, 일부 새로운 추세에는 아직 수렴을 위한 데이터가 충분하지 않습니다.

이미 언급했듯이 정규화 매개변수 변경으로 인한 효과는 학습률 또는 반복 횟수의 변경으로 인한 효과와의 혼동을 일으킬 수 있습니다. 한 가지 유용한 방법(고정된 데이터 배치를 가지고 학습하는 경우)은 조기 중단의 영향이 발생하지 않도록 반복 횟수를 충분히 높이는 것입니다.

 

주요 용어

반응형

'DATA Science > Google Machine Learning' 카테고리의 다른 글

로지스틱 회귀: 모델 학습  (0) 2021.07.28
로지스틱 회귀: 확률 계산  (0) 2021.07.26
L₂ 정규화  (0) 2021.07.25
특성교차: 원-핫 벡터 교차  (0) 2021.07.25
특성교차: 비선형성 인코딩  (0) 2021.07.25

댓글