통계의 기본 개념

복잡한 수학을 빼고 통계의 기본 개념을 알아봅니다


수강중

9. 대표값

대푯값

  • 데이터를 대표하는 값
  • 평균, 중간값, 최빈값
  • 정규분포에서는 평균, 중간값, 최빈값이 일치함

평균

  • 평균 구매 액수, 평균 구매 건수, 평균 방문 고객 수, 평균 소득 등
  • 정규 분포는 평균 근처에 데이터가 몰려 있기 때문에 평균을 알면 데이터의 위치를 알 수 있음
  • 정규 분포를 벗어난 경우에는 왜곡된 정보를 전달할 가능성이 있음
    • 예) 100명의 회사 직원들 월급은 2천만원이고 사장님 월급이 수십 억을 받아 평균 월급이 1억으로 계산됨
x = rnorm(50, 100, 10)

x의 평균

mean(x)
[1] 100.2833

중간값

  • 평균을 보충하는 의미로 많이 쓰임
  • 중간에 위치 한 값
  • 한 명이 극단적으로 튀어도 중간값에는 영향을 주지 않아 안정적임 평균 100, 표준편차 10인 50명의 데이터 x 생성

x의 중간값

median(x)
[1] 97.93376

x 데이터에 1000을 추가해 x1 생성

x1 = c(x, 1000)

x1의 평균

mean(x1)
[1] 117.9248

x1의 중간값

median(x1)
[1] 97.97288

평균은 크게 변했으나 중간값은 크게 변하지 않음

x 데이터에 0을 추가해 x2 생성

x2 = c(x, 0)

x2의 평균

mean(x2)
[1] 98.31698

x2의 중간값

median(x2)
[1] 97.89464

평균은 크게 변했으나 중간값은 크게 변하지 않음

x의 히스토그램

hist(x)

x1의 히스토그램

hist(x1)
  • 평균을 끌어올리는 극단값이 존재

x2의 히스토그램

hist(x2)
  • 평균을 끌어내리는 극단값이 존재

분위수

  • 상위 %, 하위 %

평균이 90이고 표준 편차가 15인 100건의 데이터 y 생성

y = rnorm(100, 90, 15)

y의 중간값

median(y)
[1] 91.36854

y의 최솟값

min(y)
[1] 56.84077

y의 최댓값

max(y)
[1] 144.6993

하위 10%

quantile(y, 0.1)
     10% 
71.87504 

상위 10%

quantile(y, 0.9)
     90% 
112.2316 

중간값, 상위 50%

quantile(y, 0.5)
     50% 
91.36854 

극단값들이 많이 있어서 분위수에 영향을 미치는 경우도 있음

최빈값

  • 100명의 사원들은 2천만원, 1명의 사장님은 수십 억을 받는 경우에 최빈값은 2천만원
  • 연속적인 숫자인 경우에 값이 딱 떨어지지 않음
  • 자주 사용하진 않지만 경우가 몇 개 안될 때는 사용하기도 함