R 기초 통계

R로 하는 기초 통계 분석법


수강중

6. 상관계수

동영상이 없는 텍스트 강의 자료입니다.

상관계수(correlation coefficient): 두 변수가 함께 변하는 정도를 -1 ~ 1 범위의 수로 나타낸 것

피어슨 상관계수

  • 칼 피어슨(Karl Pearson)이 개발한 상관계수
  • 적률상관계수(product-moment correlation coefficient)라고도 함
  • 일반적으로 상관계수라고 하면 피어슨 상관계수를 말함

cor 함수로 계산

x = c(8, 3, 6, 6, 9, 4, 3, 9, 3, 4)
y = c(6, 2, 4, 6, 10, 5, 1, 8, 4, 5)

cor(x, y)
[1] 0.8625173

아래와 같은 원리로 계산

cov(x, y) / ( sd(x) * sd(y) )
[1] 0.8625173

상관계수의 해석

공분산과 비슷하게 해석

부호:

  • 상관이 +인 경우: 두 변수가 같은 방향으로 변화(하나가 증가하면 다른 하나도 증가)
  • 상관이 -인 경우: 두 변수가 반대 방향으로 변화(하나가 증가하면 다른 하나는 감소)

크기:

  • 상관 = 0이면 두 변수가 독립, 즉, 한 변수의 변화로 다른 변수의 변화를 예측하지 못함
  • 상관이 클 수록 두 변수는 함께 많이 변화
  • pearson 상관계수를 제곱하면 분산(=변화량)에서 공유하는 비율
    • 예를 들어 x와 y의 상관계수가 0.4이면 그 제곱은 0.16(=16%)
    • x의 분산 중 16%를 y와 공유 또는 x의 분산 중 16%가 y로 설명됨

주의: 상관계수는 선형적인 관계를 측정하기 때문에 두 변수가 비선형적으로 함께 변하는 경우는 잘 측정하지 못함

아래 z와 w는 $w = z^2$의 관계가 있지만 상관계수는 0

z = c(-3, -2, -1, 0, 1, 2, 3)
w = c(9, 4, 1, 0, 1, 4, 9)

cor(z, w)
[1] 0
  • pearson 상관계수는 공분산을 그 기반으로 하기 때문에, 기본적으로 등간척도/비율척도 를 사용한 변수에만 적용가능함

spearman 상관계수

  • 상관분석을 실시함에 있어 서열척도 를 사용한 변수가 포함되어 있거나
  • 등간/비율척도를 사용한 변수들이라 하더라도, 두 변수 간의 관계가 비선형적 일 때 구하는 상관계수
cor(x, y, method='spearman')
[1] 0.9000703

kendall의 tau

  • spearman의 상관계수와 마찬가지로, 비선형적 관게이거나 서열변수일 때 사용
  • spearman의 상관계수보다 믿을만 한 것으로 알려짐 (특히 표본이 작을 때)
cor(x, y, method='kendall')
[1] 0.8153742