상관계수의 통계적 검증
상관분석
- 우리가 구한 상관계수는 표본에서 구한 것
- 동일한 모집단에서도 표본에 따라 상관계수가 달라질 수 있음
x = c(8, 3, 6, 6, 9, 4, 3, 9, 3, 4)
y = c(6, 2, 4, 6, 10, 5, 1, 8, 4, 5)
두 변수의 피어슨 상관계수와 p 값을 계산
cor.test(x, y)
Pearson's product-moment correlation data: x and y t = 4.821, df = 8, p-value = 0.00132 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.5096792 0.9670007 sample estimates: cor 0.8625173
결과해석:
- t = 4.821
: p 값을 계산하기 위해 구하는 수치
- df = 8
: 자유도. 데이터의 개수로 구한다.
- p-value = 0.00132
: 위의 t
와 df
를 이용해 구한 p 값 (자세한 설명은 아래)
상관계수는 0.86이고 p 값은 0.001.
p값은 모집단에서 상관계수가 0일 때, 현재와 같은 크기의 표본에서 관찰된 상관계수(여기서는 0.86)보다 더 극단적인 상관계수가 관찰될 확률
보통 0.05(5%)와 같은 임계치를 정하고, p값이 그보다 작을 경우 "통계적으로 유의미하다"라고 함.