다음에 제시된 일반화 곡선은 학습 반복 횟수에 대해 학습 세트와 검증 세트의 손실을 보여줍니다.
그림 1은 학습 손실은 점차 감소하지만 검증 손실은 결국 증가하는 모델을 보여줍니다. 즉, 이 일반화 곡선은 모델이 학습 세트의 데이터에 대해 과적합하다는 것을 보여줍니다. 이전에 언급했던 Occam 개념을 활용하면 복잡한 모델에 페널티를 부여하는 정규화라는 원칙을 사용하여 과적합을 방지할 수 있을지도 모릅니다.
다시 말해 다음은 단순히 손실을 최소화하는 것만을 목표로 삼습니다 (경험적 위험 최소화).
최소화 (손실 (데이터|모델) )
이제 구조적 위험 최소화를 통해 다음과 같이 손실과 복잡도를 함께 최소화해 보겠습니다.
최소화 (손실 (데이터|모델) + 복잡도 (모델) )
이제 우리의 학습 최적화 알고리즘은 모델이 데이터에 얼마나 적합한지 측정하는 손실 항과 모델 복잡도를 측정하는 정규화 항의 함수가 됩니다.
본 머신러닝 단기집중과정에서는 일반적인 (그리고 어느 정도 서로 관련이 있는) 2가지 방법으로 모델 복잡도를 다루게 됩니다.
- 모델의 모든 특성의 가중치에 대한 함수로서의 모델 복잡도
- 0이 아닌 가중치를 사용하는 특성의 총 개수에 대한 함수로서의 모델 복잡도 (후속 강의에서 이 접근 방식을 다룹니다.)
모델 복잡도가 가중치에 대한 함수인 경우 높은 절대값을 사용하는 특성 가중치는 낮은 절대값을 사용하는 특성 가중치보다 더 복잡합니다.
모든 특성 가중치를 제곱한 값의 합계로서 정규화 항을 정의하는 L2 정규화 공식을 사용하여 복잡도를 수치화할 수 있습니다.
정규화항L2정규화 항=||w||22=w12+w22+...+wn2
이 공식에서 0에 가까운 가중치는 모델 복잡도에 거의 영향을 미치지 않는 반면, 이상점 가중치는 큰 영향을 미칠 수 있습니다.
예를 들어 다음과 같은 가중치를 갖는 선형 모델이 있습니다.
{w1=0.2,w2=0.5,w3=5,w4=1,w5=0.25,w6=0.75}
위 모델의 L2 정규화 항은 다음과 같이 26.915입니다.
w12+w22+w32+w42+w52+w62
=0.22+0.52+52+12+0.252+0.752
=0.04+0.25+25+1+0.0625+0.5625
=26.915
하지만 제곱한 값이 25인 위의 굵은 글씨체로 된 w3는 거의 모든 복잡도에 기여합니다. 다른 5개의 모든 가중치를 제곱한 값의 합계는 L2 정규화 항에 1.915를 더하기만 하면 됩니다.
주요 용어
'DATA Science > Google Machine Learning' 카테고리의 다른 글
로지스틱 회귀: 확률 계산 (0) | 2021.07.26 |
---|---|
단순성을 위한 정규화: 람다 (0) | 2021.07.25 |
특성교차: 원-핫 벡터 교차 (0) | 2021.07.25 |
특성교차: 비선형성 인코딩 (0) | 2021.07.25 |
표현: 데이터 정제 (0) | 2021.07.25 |
댓글