대표값
대푯값
- 데이터를 대표하는 값
- 평균, 중간값, 최빈값
- 정규분포에서는 평균, 중간값, 최빈값이 일치함
평균
- 평균 구매 액수, 평균 구매 건수, 평균 방문 고객 수, 평균 소득 등
- 정규 분포는 평균 근처에 데이터가 몰려 있기 때문에 평균을 알면 데이터의 위치를 알 수 있음
- 정규 분포를 벗어난 경우에는 왜곡된 정보를 전달할 가능성이 있음
- 예) 100명의 회사 직원들 월급은 2천만원이고 사장님 월급이 수십 억을 받아 평균 월급이 1억으로 계산됨
x = rnorm(50, 100, 10)
x의 평균
mean(x)
[1] 100.2833
중간값
- 평균을 보충하는 의미로 많이 쓰임
- 중간에 위치 한 값
- 한 명이 극단적으로 튀어도 중간값에는 영향을 주지 않아 안정적임 평균 100, 표준편차 10인 50명의 데이터 x 생성
x의 중간값
median(x)
[1] 97.93376
x 데이터에 1000을 추가해 x1 생성
x1 = c(x, 1000)
x1의 평균
mean(x1)
[1] 117.9248
x1의 중간값
median(x1)
[1] 97.97288
평균은 크게 변했으나 중간값은 크게 변하지 않음
x 데이터에 0을 추가해 x2 생성
x2 = c(x, 0)
x2의 평균
mean(x2)
[1] 98.31698
x2의 중간값
median(x2)
[1] 97.89464
평균은 크게 변했으나 중간값은 크게 변하지 않음
x의 히스토그램
hist(x)
x1의 히스토그램
hist(x1)
- 평균을 끌어올리는 극단값이 존재
x2의 히스토그램
hist(x2)
- 평균을 끌어내리는 극단값이 존재
분위수
- 상위 %, 하위 %
평균이 90이고 표준 편차가 15인 100건의 데이터 y 생성
y = rnorm(100, 90, 15)
y의 중간값
median(y)
[1] 91.36854
y의 최솟값
min(y)
[1] 56.84077
y의 최댓값
max(y)
[1] 144.6993
하위 10%
quantile(y, 0.1)
10% 71.87504
상위 10%
quantile(y, 0.9)
90% 112.2316
중간값, 상위 50%
quantile(y, 0.5)
50% 91.36854
극단값들이 많이 있어서 분위수에 영향을 미치는 경우도 있음
최빈값
- 100명의 사원들은 2천만원, 1명의 사장님은 수십 억을 받는 경우에 최빈값은 2천만원
- 연속적인 숫자인 경우에 값이 딱 떨어지지 않음
- 자주 사용하진 않지만 경우가 몇 개 안될 때는 사용하기도 함