실습을 위한 준비:
import numpy
x = [1, 1, 2, 3, 3, 3, 4, 5, 5, 7]
최솟값:
numpy.min(x)
1
최댓값:
numpy.max(x)
7
범위:
numpy.max(x) - numpy.min(x)
6
각각의 데이터에서 평균값을 빼고, 그것을 제곱하여 평균을 구함
분산이 크면 : 데이터가 평균에서 많이 벗어나 있다
numpy.var(x)
3.2399999999999998
numpy.std(x)
1.8
표준편차는 분산의 양의 제곱근.
아래와 같이 계산하면 numpy.std
한 것과 같음.
numpy.sqrt(numpy.var(x))
1.8
numpy.sqrt
로 제곱근을 구할 수 있음. $\sqrt 4 = 2$.
numpy.sqrt(4)
2.0
사분위수란 전체 데이터를 작은 값부터 큰 값까지 순서대로 나열한 후 4등분 하였을 때, 각 지점에 해당하는 값
제1사분위수와 제3사분위수 사이의 구간에는 항상 전체 데이터의 50%가 포함 됨
제1사분위수:
numpy.quantile(x, .25)
2.25
제2사분위수(50% 지점) = 중간값:
numpy.quantile(x, .5)
3.0
numpy.median(x)
3.0
제3사분위수(75% 지점)
numpy.quantile(x, .75)
4.75
사분위간 범위(Q3 - Q1):
numpy.quantile(x, .75) - numpy.quantile(x, .25)
2.5