상관과 회귀

예측 분석의 기본이 되는 상관과 회귀의 개념을 알아봅니다


수강중

14. 로지스틱 회귀(이론)

범주형 자료

  • 종속 변수가 연속형이 아니라면?
    • 연속형: 야구 선수의 연봉
    • 이진형: 성공/실패, 정품/불량, 합격/불합격
  • 순서가 존재하지 않음
  • 이진형과 같이 꼭 두 가지로만 나뉘는 것은 아님
    • 예) 혈액형

이진형 자료의 문제점

  • x축: 토익 점수, y축: 회사 취업 여부
  • 토익 점수가 300보다 떨어지면 y값이 0보다 더 아래로 내려감
  • 선형 회귀는 0과 1 사이의 값만을 가지게 할 수 없음
  • 선형 회귀 선이 데이터를 잘 맞추지 못 함
  • 즉 선형 회귀로 성공과 실패를 예측하는 것은 불가능

Link Function

  • 선형 회귀의 예측 값은 (-Inf, Inf)까지 나올 수 있음 $$ \sigma(t) = \frac{e^t}{e^t+1} = \frac{1}{1+e^t} $$
  • 로지스틱 함수는 0과 1 사이의 값으로 바꿔줌
  • 로지스틱 함수를 통해 나온 값은 일종의 유사 확률임
  • 각 독립 변수에 따른 성공 확률을 구할 수 있음
  • 예) 영어 점수, 학점, 인턴 경력, 학력 등에 따른 회사 합격 확률

$$ t = \beta_0 + \beta_1 x $$

$$ F(x) = \frac{1}{1+e^-(\beta_0 + \beta_1x)} $$

  • $F(x)$: [0, 1] 사이의 값을 가지는 확률과 같은 개념으로 이해할 수 있음. $P(Y=1|X)$
  • $t$: [-Inf, Inf] 값을 가질 수 있음

Logit Function

$$g(F(x)) = ln(\frac{F(x)}{1-F(x)}) = \beta_0 + \beta_1x$$

  • 일반화된 선형 회귀, glm(generalized linear model)에 속함
  • 로지스틱의 역함수

정리

  • 이진형 자료를 이용해 0과 1을 예측을 하고자 하는데
  • 예측하고자 하는 것은 성공, 실패를 바로 예측하는 것이 아닌 성공할 확률을 예측하는 것임
  • 0과 1 사이의 값을 가지는 로지스틱 함수로 유사 확률을 만들어 예측
  • t를 회귀 식처럼 만들면 선형 회귀 모양으로 만들 수 있음

회귀 계수 해석하기

  • Odds(승산)
  • Odds ratio(승산비)

Odds

$$ \frac{\pi_i}{1-\pi_i} = \frac{P(y_i = 1|x_i)}{P(y_i = 0|x_i)} $$

  • $\pi_i$: 성공할 확률
  • 성공, 실패 확률이 같으면 1
  • 성공할 확률이 0.7이면 2.333
  • 즉 Odds가 1보다 크면 성공할 확률이 더 크고 1보다 작으면 실패할 확률이 더 큰 것을 의미함

Odds ratio

$$ \frac{\text{odds}(x+1)}{\text{odds}(x)} = \frac{\frac{F(x+1)}{1-F(x+1)}}{\frac{F(x)}{1-F(x)}} = \frac{e^{\beta_0+\beta_1(x+1)}}{e^{\beta_0+\beta_1x}} = e^{\beta_1} $$

  • $e^{\beta_1}$: x가 1만큼 증가했을 때 Odds가 어떻게 변하는가를 나타냄
  • $e^{\beta_1}$ = 1 이라면
    • 분자와 분모가 같다는 뜻
    • $\text{odds}(x+1)$와 $\text{odds}(x)$가 같다는 뜻
    • x가 변했음에도 불구하고 성공과 실패 확률이 변함이 없다는 뜻
    • 즉, 변수가 확률에 어떠한 영향도 미치지 않음
  • $e^{\beta_1}$ > 1 이라면
    • 분자가 더 커야 함
    • x가 1만큼 커졌을 때 성공 확률이 늘어난 경우
    • 성공 확률에 긍정적인 영향을 미치는 경우
  • $e^{\beta_1}$ < 1 이라면
    • 분모가 더 커야 함
    • x가 1만큼 커졌을 때 성공 확률이 떨어진 경우
    • 성공 확률에 부정적인 영향을 미치는 경우