상관과 회귀

예측 분석의 기본이 되는 상관과 회귀의 개념을 알아봅니다


수강중

7. 회귀분석이란?

다양한 회귀 모형들

  • Linear Regression -> 회귀 분석의 기본적인 형태
  • Gerneralized Linear Model
  • Nonlinear Regression
  • MARS
  • Gaussian Process

회귀란

  • 사전적 정의: 한 바퀴 돌아 제자리로 돌아오거나 돌아감
  • 평균으로의 회귀(Regression toward the mean)
  • Francis Galton이 처음 사용
    • 부모님의 키와 자식의 키 관계에 대한 연구를 진행함
    • 부모님의 키가 작으면 자식의 키가 작고 부모님의 키가 크면 자식의 키가 클 것이라고 예상
    • 부모님의 키가 작고 평균으로부터 많이 떨어져 있어도 자식은 작은 편이나 그렇게 작지 않다는 결과를 얻음
    • 부모님의 키가 크고 평균으로부터 많이 떨어져 있어도 자식은 큰 편이나 그렇게 크지 않다는 결과를 얻음
    • 정상 범위에서 벗어나 보이는 데이터들도 여러 번 관찰하다보면 평균으로 수렴하게 됨을 알게 됨
  • 점선
    • 실제로 평균으로의 회귀가 일어나지 않았을 때
    • 아버지의 성ㅇ질이 아들에게 이어지는 경우
  • 빨간 선(회귀 선)
    • 실제 현상
    • X 값보다 Y 값이 평균과 더 가까움
    • 아버지의 키보다 아들의 키가 평균과 더 가까움

회귀분석이란

  • 독립 변수(Independent Variable)과 종속 변수(Dependent Variable)간의 관계를 찾는 분석
  • 예측을 위해 사용
  • 독립 변수의 값이 변할 때에 종속 변수의 값은 어떻게 변할 것인가?
  • 예) 기온이 1도 오를 때 아이스크림 판매량은 얼마나 증가할 것인가?
    • 오늘이 25인데 내일 28라고 예상된다면 내일은 아이스크림이 어느 정도 더 팔릴지 예상할 수 있음
  • x가 변할 때 y가 어떻게 변하는가를 잘 설명하는 회귀 선을 찾는 것이 회귀 분석의 목표
  • 회귀 모형: $y = a + bx$
    • 파라미터($a, b$)와 독립변수로 이루어져 있음
    • 파라미터가 달라지면 무수히 많은 직선들을 그릴 수가 있음
    • 수많은 직선들 중 모형에 가장 잘 맞는 직선을 찾는 것이 목표