상관계수의 통계적 검증 :: Python 기초 통계 - mindscale
Skip to content

상관계수의 통계적 검증

상관분석

  • 우리가 구한 상관계수는 표본에서 구한 것
  • 동일한 모집단에서도 표본에 따라 상관계수가 달라질 수 있음
x = [8, 3, 6, 6, 9, 4, 3, 9, 3, 4]
y = [6, 2, 4, 6, 10, 5, 1, 8, 4, 5]

두 변수의 피어슨 상관계수와 p 값을 계산

import scipy.stats

scipy.stats.pearsonr(x, y)
(0.8625172792135779, 0.0013196539142000057)

상관계수는 0.86이고 p 값은 0.001.

p값은 모집단에서 상관계수가 0일 때, 현재와 같은 크기의 표본에서 관찰된 상관계수(여기서는 0.86)보다 더 극단적인 상관계수가 관찰될 확률

보통 0.05(5%)와 같은 임계치를 정하고, p값이 그보다 작을 경우 "통계적으로 유의미하다"라고 함.