R 기초 통계

R로 하는 기초 통계 분석법


수강중

5. 공분산

동영상이 없는 텍스트 강의 자료입니다.

공분산(covariance): 두 변수가 함께 변화하는 정도를 나타내는 지표

공분산

두 개의 데이터 xy가 있을 때

x = c(8, 3, 6, 6, 9, 4, 3, 9, 3, 4)
y = c(6, 2, 4, 6, 10, 5, 1, 8, 4, 5)

산점도로 나타내기. 가로축은 x, 세로축은 y를 나타냄.

plot(x, y)

cov를 사용하면 x와 y의 공분산을 계산

cov(x, y)
[1] 5.611111

공분산의 해석

부호:

  • 공분산이 +인 경우: 두 변수가 같은 방향으로 변화(하나가 증가하면 다른 하나도 증가)
  • 공분산이 -인 경우: 두 변수가 반대 방향으로 변화(하나가 증가하면 다른 하나는 감소)

크기:

  • 공분산 = 0이면 두 변수가 독립, 즉, 한 변수의 변화로 다른 변수의 변화를 예측하지 못함
  • 공분산의 크기가 클 수록 두 변수는 함께 많이 변화
    • 단위에 따라 공분산의 크기가 달라지므로 절대적 크기로 판단이 어려움
    • 공분산을 -1 ~ 1 범위로 표준화 시킨 것이 상관계수

주의: 공분산은 선형적인 관계를 측정하기 때문에 두 변수가 비선형적으로 함께 변하는 경우는 잘 측정하지 못함

아래 z와 w는 $w = z^2$의 관계가 있지만 공분산은 0

z = c(-3, -2, -1, 0, 1, 2, 3)
w = c(9, 4, 1, 0, 1, 4, 9)

cov(z, w)
[1] 0