R 기초 통계

R로 하는 기초 통계 분석법


수강중

7. 상관계수의 통계적 검증

동영상이 없는 텍스트 강의 자료입니다.

상관분석

  • 우리가 구한 상관계수는 표본에서 구한 것
  • 동일한 모집단에서도 표본에 따라 상관계수가 달라질 수 있음
x = c(8, 3, 6, 6, 9, 4, 3, 9, 3, 4)
y = c(6, 2, 4, 6, 10, 5, 1, 8, 4, 5)

두 변수의 피어슨 상관계수와 p 값을 계산

cor.test(x, y)
	Pearson's product-moment correlation

data:  x and y
t = 4.821, df = 8, p-value = 0.00132
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.5096792 0.9670007
sample estimates:
      cor 
0.8625173 

결과해석:

  • t = 4.821: p 값을 계산하기 위해 구하는 수치
  • df = 8: 자유도. 데이터의 개수로 구한다.
  • p-value = 0.00132: 위의 tdf를 이용해 구한 p 값 (자세한 설명은 아래)

상관계수는 0.86이고 p 값은 0.001.

p값은 모집단에서 상관계수가 0일 때, 현재와 같은 크기의 표본에서 관찰된 상관계수(여기서는 0.86)보다 더 극단적인 상관계수가 관찰될 확률

보통 0.05(5%)와 같은 임계치를 정하고, p값이 그보다 작을 경우 "통계적으로 유의미하다"라고 함.