상관과 회귀

예측 분석의 기본이 되는 상관과 회귀의 개념을 알아봅니다


수강중

2. 여러 가지 상관

  • Pearson Correlation Coefficient(두 연속 변수)
  • Rank Correlation(연속 혹은 순서 변수)
  • Polychoric Correlation(순서 변수)
  • Autocorrelation
    • 경제학이나 지리학적 데이터를 다룰 때 사용

Pearson Correlation Coefficient(두 연속 변수)

  • 두 연속 변수 사이의 선형적 관계를 찾는 방법

    • 선형적 관계: 하나가 증가하면 하나가 증가하는 관계 혹은 하나가 증가하면 하나가 감소하는 관계
    • 피어슨 상관계수는 아래와 같은 예시에는 적절하지 않음
    • 예) 야구선수의 전성기는 28인데 나이가 들수록 기량이 상승하다가 28이 지나면서 기량이 하락하여 곡선 형태의 그래프가 그려지게 됨
  • 일반적으로 가장 많이 사용하는 값

  • 연속 변수가 아닌 데이터에 적용된다면 구할 순 있지만 의미가 원래 해석하고자 했던 것과는 다르게 됨
  • 예) 기온과 코트 판매량: 기온과 코트 판매량 모두 연속 변수
  • 예) 학생의 학교 점수와 사교육비의 관계

Rank Correlation(연속 혹은 순서 변수)

  • Spearman's rho, Kendall's tau, ...
  • 순위에 대한 상관을 매겨보고 싶을 때 사용
  • 예) 사교육비 등수와 학생의 학교 등수
    (사교육비 등수, 학교 등수)
    (1, 1), (2, 2), (3, 3) # 같은 방향으로 움직임(양의 상관)
    (1, 3), (2, 2), (3, 1) # 반대 방향으로 움직임(음의 상관)
    (1, 3), (2, 1), (3, 2) # 관계가 없어보임
  • 순위를 사용하는 것은 숫자를 사용하는 것보다 정보를 줄여서 사용하는 것과 비슷함
  • 그렇다고 해서 피어슨 상관계수가 더 유리한 것은 아님
  • 종종 연속 변수에 대해서 Rank correlation을 구하는 것이 유리할 때도 사용
  • 각각의 간격은 중요하지 않고 순위가 중요한 경우에는 상관을 잘 잡아낼 수 있음
  • 즉, 순위 상관 계수가 피어슨 상관계수보다 높다면 그래프를 그려보고 직선 관계가 아닌 비선형 관계를 가지는 상관이 있을 수 있다고 의심해 볼 수 있음

Polychoric Correlation(순서, 범주 변수)

  • 겉보기에는 이산 변수처럼 보이지만 실제로는 연속적인 성질을 가지는 어떤 값이 존재할 때 사용
  • 예) 시험 통과 여부(Y/N)와 사람의 아이큐 간의 상관관계
    • 시험 통과 여부는 이산 변수이지만 실제로 시험 통과는 연속 변수인 시험 점수를 보고 판단하는 것임
  • 예) 외향성/내향성과 우울 점수 간의 상관
    • 외향성/내향성을 구분하는 데에는 심리적 점수가 존재할 수도 있음
    • 외향적인 사람이라고 해도 사람마다 외향성 수준이 다를 것임
  • 실제로는 잘 사용하지 않은데 많이 쓰이는 곳은 심리 측정 분야

Autocorrelation

  • 내가 관찰한 자료가 서로 간에 독립적으로 뽑힌 것이 아니라 어떤 추세가 존재할 때 사용(주로 시공간적 추세)
  • 예) 기온은 주기 함수 모양의 패턴을 가지기 때문에 여름 기온을 알고 있으면 가을 기온을 어느 정도 예측할 수 있음
  • 경제학, 지리학 분야에서 많이 사용하며 신호나 뇌 영상과 관련된 분석을 할 때도 사용
  • 특정 분야에서는 교정해야 할 대상이기도 함(fMRI 분석 등)
  • 자기 상관이 존재한다면 ARMA, fMRI 등의 방법을 사용