변산성 측정치 (분산, 표준편차, 범위, 사분위간 범위)
- 변산성(variability): 자료가 흩어져 있는 정도, 혹은 개체에 따라 변할 수 있는 정도
- 중심경향치가 자료가 무엇을 중심으로 모여있는가(혹은 흩어져 있는가)를 나타내는 것이라면,
- 변산성 측정치는, 그 모여있는 정도(혹은 흩어져 있는 정도)를 의미함
실습을 위한 준비:
x = c(1, 1, 2, 3, 3, 3, 4, 5, 5, 7)
범위(range)
- 자료가 갖는 최대값과 최소값 사이의 거리, 즉 자료가 얼마나 퍼져있는가를 나타냄
- 범위 = 최댓값 - 최솟값
최솟값:
min(x)
[1] 1
최댓값:
max(x)
[1] 7
범위:
max(x) - min(x)
[1] 6
분산
- 평균에서 데이터가 벗어난 정도를 수치화한 값
-
각각의 데이터에서 평균값을 빼고, 그것을 제곱하여 평균을 구함
-
분산이 크면 : 데이터가 평균에서 많이 벗어나 있다
- 분산이 작으면 : 데이터가 평균 주변에 모여 있다
var(x)
[1] 3.6
표준편차
- 평균에서 데이터가 벗어난 정도를 수치화한 값
sd(x)
[1] 1.897367
표준편차는 분산의 양의 제곱근.
아래와 같이 계산하면 sd
한 것과 같음.
sqrt(var(x))
[1] 1.897367
sqrt
는 제곱근을 구하는 함수 $\sqrt 4 = 2$.
sqrt(4)
[1] 2
사분위간 범위
- 사분위간 범위(IQR, InterQuartile Range)는 제3사분위수에서 제1사분위수 간의 범위
- 사분위수란 전체 데이터를 작은 값부터 큰 값까지 순서대로 나열한 후 4등분 하였을 때, 각 지점에 해당하는 값
- 제1사분위수(Q1): 25% 지점
- 제2사분위수(Q2): 50% 지점 = 중간값
-
제3사분위수(Q3): 75%
-
제1사분위수와 제3사분위수 사이의 구간에는 항상 전체 데이터의 50%가 포함 됨
- 사분위는 임의로 정하는 기준이므로 필요에 따라 십분위 등으로 변경가능
quantile
함수로 최소값, 제1사분위수, 중간값, 제3사분위수, 최댓값까지 구할 수 있다.
quantile(x)
0% 25% 50% 75% 100% 1.00 2.25 3.00 4.75 7.00
IQR
함수로 사분위간 범위 $Q3 - Q1$를 구할 수 있다:
IQR(x)
[1] 2.5
변산성 측정치를 이용한 이상점 진단
- 대부분의 자료는 중심경향치 주변에 몰려있음
- 변산성 측정치를 기준으로 벗어난 정도를 파악할 수 있음
- 평균에서 벗어난 정도를 판단할 때는 표준편차를 사용
- 평균에서 표준편차의 n배 떨어져 있으면 "n 표준편차"와 같이 표현
- 중간값에서 벗어난 정도를 판단할 때는 IQR을 사용
- 중심경향치에서 크게 벗어났다면 이상점으로 의심할 수 있음