본문 바로가기
DATA Science/Google Machine Learning

로지스틱 회귀: 확률 계산

by Rainbound-IT 2021. 7. 26.
반응형

많은 문제에 확률 추정치가 출력으로 필요합니다. 로지스틱 회귀는 매우 효율적인 확률 계산 메커니즘입니다. 실제로 반환된 확률을 다음 두 방법 중 하나로 사용할 수 있습니다.

  • '있는 그대로'
  • 이진 카테고리로 변환

확률을 '있는 그대로' 사용하는 방법을 살펴보겠습니다. 한밤중에 개가 짖는 확률을 예측하기 위해 로지스틱 회귀 모델을 만든다고 가정합니다. 이 확률은 다음과 같이 표시합니다.

 

p(bark | night)

로지스틱 회귀 모델이 예측한 p(bark | night)가 0.05이면 개 주인은 1년 동안 약 18번 놀라서 깨게 됩니다.

 

startled = p(bark | night) * nights
18 ~= 0.05 * 365

 

많은 경우 로지스틱 회귀 출력을 이진 분류 문제의 해결 방법으로 매핑합니다. 이진 분류 문제의 목표는 가능한 두 라벨(예: '스팸' 또는 '스팸 아님') 중 하나를 올바로 예측하는 것입니다. 매핑에 대한 더 자세한 내용은 이후 모듈에서 집중적으로 다룹니다.

로지스틱 회귀 모델의 출력이 어떻게 항상 0과 1 사이에 포함되는지 궁금할 수도 있습니다. 공교롭게도 다음과 같이 정의된 시그모이드 함수가 동일한 특성을 갖는 출력을 생성합니다.

 

 

시그모이드 함수는 다음 그래프와 같습니다.

그림 1: 시그모이드 함수

 

z가 로지스틱 회귀를 사용하여 학습된 모델의 선형 레이어의 출력을 나타내는 경우 sigmoid(z)는 0과 1 사이의 값(확률)을 생성합니다. 수학적 표현으로는 다음과 같습니다.

 

여기서

  • y'는 특정 예에 관한 로지스틱 회귀 모델의 출력입니다.
  • z = b + w1x1 + w2x2 + ... wNxN
    • w 값은 모델의 학습된 가중치이고, b는 편향입니다.
    • x 값은 특정 예에 대한 특성 값입니다.

z z를 '1' 라벨(예: '개가 짖음')의 확률을 '0' 라벨(예: '개가 짖지 않음')의 확률로 나눈 값의 로그로 정의할 수 있는 시그모이드 상태의 역수이므로 로그 오즈(log-odds)라고도 합니다.

 

다음은 ML 라벨이 포함된 시그모이드 함수입니다.

그림 2: 로지스틱 회귀 출력

 

 로지스틱 회귀 추론 계산의 예시 접은글

더보기

다음과 같은 편향과 가중치를 학습한 특성이 세 개인 로지스틱 회귀 모델이 있다고 가정합니다.

  • b = 1
  • w1 = 2
  • w2 = -1
  • w3 = 5

또한 지정된 예의 특성 값이 다음과 같다고 가정합니다.

  • x1 = 0
  • x2 = 10
  • x3 = 2

따라서 로그 오즈는

 

이며, 다음과 같습니다.

 

(1) + (2)(0) + (-1)(10) + (5)(2) = 1

결과적으로 이 특정 예의 로지스틱 회귀 예측값은 0.731입니다.

그림 3: 73.1% 확률

주요 용어

 

반응형

'DATA Science > Google Machine Learning' 카테고리의 다른 글

로지스틱 회귀: 모델 학습  (0) 2021.07.28
단순성을 위한 정규화: 람다  (0) 2021.07.25
L₂ 정규화  (0) 2021.07.25
특성교차: 원-핫 벡터 교차  (0) 2021.07.25
특성교차: 비선형성 인코딩  (0) 2021.07.25

댓글