로지스틱 회귀: 확률 계산

많은 문제에 확률 추정치가 출력으로 필요합니다. 로지스틱 회귀는 매우 효율적인 확률 계산 메커니즘입니다. 실제로 반환된 확률을 다음 두 방법 중 하나로 사용할 수 있습니다.

확률을 '있는 그대로' 사용하는 방법을 살펴보겠습니다. 한밤중에 개가 짖는 확률을 예측하기 위해 로지스틱 회귀 모델을 만든다고 가정합니다. 이 확률은 다음과 같이 표시합니다.

p(bark | night)

로지스틱 회귀 모델이 예측한 p(bark | night)가 0.05이면 개 주인은 1년 동안 약 18번 놀라서 깨게 됩니다.

startled = p(bark | night) * nights
18 ~= 0.05 * 365

많은 경우 로지스틱 회귀 출력을 이진 분류 문제의 해결 방법으로 매핑합니다. 이진 분류 문제의 목표는 가능한 두 라벨(예: '스팸' 또는 '스팸 아님') 중 하나를 올바로 예측하는 것입니다. 매핑에 대한 더 자세한 내용은 이후 모듈에서 집중적으로 다룹니다.

로지스틱 회귀 모델의 출력이 어떻게 항상 0과 1 사이에 포함되는지 궁금할 수도 있습니다. 공교롭게도 다음과 같이 정의된 시그모이드 함수가 동일한 특성을 갖는 출력을 생성합니다.

시그모이드 함수는 다음 그래프와 같습니다.

z가 로지스틱 회귀를 사용하여 학습된 모델의 선형 레이어의 출력을 나타내는 경우 sigmoid(z)는 0과 1 사이의 값(확률)을 생성합니다. 수학적 표현으로는 다음과 같습니다.

여기서

y'는 특정 예에 관한 로지스틱 회귀 모델의 출력입니다.
z = b + w1x1 + w2x2 + ... wNxN
- w 값은 모델의 학습된 가중치이고, b는 편향입니다.
- x 값은 특정 예에 대한 특성 값입니다.

z는 z를 '1' 라벨(예: '개가 짖음')의 확률을 '0' 라벨(예: '개가 짖지 않음')의 확률로 나눈 값의 로그로 정의할 수 있는 시그모이드 상태의 역수이므로 로그 오즈(log-odds)라고도 합니다.

다음은 ML 라벨이 포함된 시그모이드 함수입니다.

다음과 같은 편향과 가중치를 학습한 특성이 세 개인 로지스틱 회귀 모델이 있다고 가정합니다.

또한 지정된 예의 특성 값이 다음과 같다고 가정합니다.

따라서 로그 오즈는

이며, 다음과 같습니다.

(1) + (2)(0) + (-1)(10) + (5)(2) = 1

결과적으로 이 특정 예의 로지스틱 회귀 예측값은 0.731입니다.

주요 용어

이진 분류	로지스틱 회귀
시그모이드 함수

호에에