상관계수의 통계적 검증
상관분석
- 우리가 구한 상관계수는 표본에서 구한 것
- 동일한 모집단에서도 표본에 따라 상관계수가 달라질 수 있음
x = [8, 3, 6, 6, 9, 4, 3, 9, 3, 4]
y = [6, 2, 4, 6, 10, 5, 1, 8, 4, 5]
두 변수의 피어슨 상관계수와 p 값을 계산
import scipy.stats
scipy.stats.pearsonr(x, y)
(0.8625172792135779, 0.0013196539142000057)
상관계수는 0.86이고 p 값은 0.001.
p값은 모집단에서 상관계수가 0일 때, 현재와 같은 크기의 표본에서 관찰된 상관계수(여기서는 0.86)보다 더 극단적인 상관계수가 관찰될 확률
보통 0.05(5%)와 같은 임계치를 정하고, p값이 그보다 작을 경우 "통계적으로 유의미하다"라고 함.