통계의 기본 개념

복잡한 수학을 빼고 통계의 기본 개념을 알아봅니다


수강중

7. 정규분포

정규분포

  • 키, 가격, 구매액수, 성적
  • 연속된 값이어서 경우의 수가 무수히 많음
  • 평균과 분산만 알면 모든 경우의 확률을 구할 수 있음

평균

  • 평균 = 합계 / 개수
  • 평균을 중심으로 값들이 모여 있음
  • 평균에서 가장 확률이 높고 평균에서 멀어질수록 확률이 떨어짐
  • 값들이 좁게 퍼져 있으면 평균에서 멀어질수록 확률이 빨리 떨어지고 넓게 퍼져 있으면 평균에서 멀어질수록 확률이 천천히 떨어짐

분산, 표준편차

  • 분산 = 평균과 차이의 제곱의 합 / 개수
  • 표준편차 = $\sqrt분산$
  • 정규분포는 평균과 표준편차에 의해서 좌우됨
  • 흩어져 있을 수록 분산이나 표준편차가 커짐
  • 분산을 직접적으로 해석하는 경우는 없음
  • 분산은 비교를 할 때만 사용

시뮬레이션

평균 170, 표준편차 10인 100건의 데이터 생성

x = rnorm(100, 170, 10)
hist(x)
  • 실행할 때마다 다른 그래프가 그려짐

모수 추정

  • 모평균, 모표준 편차, 모분산을 추정

모평균 추정

표본 평균

x = rnorm(100, 170, 10)
mean(x)
[1] 170.3248
  • 모평균과는 차이가 있지만 비슷함

데이터가 많을수록 표본 평균이 모평균과 가까워짐

x = rnorm(10000, 170, 10)
mean(x)
[1] 170.0115
x = rnorm(1000000, 170, 10)
mean(x)
[1] 170.0086
  • 점점 170에 가까워짐

모분산 추정

  • 개수 - 1로 나눔: 평균적으로 모분산에 가까워짐
  • R 뿐만 아닐 엑셀에도 stdev 함수가 존재

데이터를 많이 뽑아야 정확해짐

x = rnorm(1000000, 170, 10)
var(x)
[1] 99.8477
sd(x)
[1] 9.992382
x = rnorm(50, 170, 10)
sd(x)
[1] 10.21503

확률 추정

확률 밀도

평균이 170이고 표준편차가 10일 때 170의 확률 밀도

dnorm(170, 170, 10)
[1] 0.03989423
  • 경우의 수가 너무 많기 때문에 사실상 170의 확률은 0이어서 확률을 구할 수 없고 확률 밀도만 구할 수 있음
  • 확률 밀도를 범위랑 같이 계산하면 확률이 됨

누적분포

마이너스 무한대부터 평균인 170까지 확률 밀도를 다 더함

pnorm(170, 170, 10)
[1] 0.5

마이너스 무한대부터 180까지 확률 밀도를 다 더함

pnorm(180, 170, 10)
[1] 0.8413447

160~180에 속하는 사람의 비율

pnorm(180, 170, 10) - pnorm(160, 170, 10)
[1] 0.6826895

히스토그램을 그리면

hist(x, prob = T)

prob = T를 해주면 세로축이 확률 밀도로 바뀜

정규분포 커브를 추가하면

hist(x, prob = T)
curve(dnorm(x, 170, 10), add = T, col='red')

퍼센트 계산

하위 10% 확률

qnorm(0.1, 170, 10)
[1] 157.1845

상위 10% 확률

qnorm(0.9, 170, 10)
[1] 182.8155