정규분포 :: 통계의 기본 개념 - mindscale

Skip to content

정규분포

정규분포

키, 가격, 구매액수, 성적
연속된 값이어서 경우의 수가 무수히 많음
평균과 분산만 알면 모든 경우의 확률을 구할 수 있음

평균

평균 = 합계 / 개수
평균을 중심으로 값들이 모여 있음
평균에서 가장 확률이 높고 평균에서 멀어질수록 확률이 떨어짐
값들이 좁게 퍼져 있으면 평균에서 멀어질수록 확률이 빨리 떨어지고 넓게 퍼져 있으면 평균에서 멀어질수록 확률이 천천히 떨어짐

분산, 표준편차

분산 = 평균과 차이의 제곱의 합 / 개수
표준편차 = $\sqrt분산$
정규분포는 평균과 표준편차에 의해서 좌우됨
흩어져 있을 수록 분산이나 표준편차가 커짐
분산을 직접적으로 해석하는 경우는 없음
분산은 비교를 할 때만 사용

시뮬레이션

평균 170, 표준편차 10인 100건의 데이터 생성

x = rnorm(100, 170, 10)
hist(x)

실행할 때마다 다른 그래프가 그려짐

모수 추정

모평균, 모표준 편차, 모분산을 추정

모평균 추정

표본 평균

x = rnorm(100, 170, 10)
mean(x)

[1] 170.3248

모평균과는 차이가 있지만 비슷함

데이터가 많을수록 표본 평균이 모평균과 가까워짐

x = rnorm(10000, 170, 10)
mean(x)

[1] 170.0115

x = rnorm(1000000, 170, 10)
mean(x)

[1] 170.0086

점점 170에 가까워짐

모분산 추정

개수 - 1로 나눔: 평균적으로 모분산에 가까워짐
R 뿐만 아닐 엑셀에도 stdev 함수가 존재

데이터를 많이 뽑아야 정확해짐

x = rnorm(1000000, 170, 10)
var(x)

[1] 99.8477

sd(x)

[1] 9.992382

x = rnorm(50, 170, 10)
sd(x)

[1] 10.21503

확률 추정

확률 밀도

평균이 170이고 표준편차가 10일 때 170의 확률 밀도

dnorm(170, 170, 10)

[1] 0.03989423

경우의 수가 너무 많기 때문에 사실상 170의 확률은 0이어서 확률을 구할 수 없고 확률 밀도만 구할 수 있음
확률 밀도를 범위랑 같이 계산하면 확률이 됨

누적분포

마이너스 무한대부터 평균인 170까지 확률 밀도를 다 더함

pnorm(170, 170, 10)

[1] 0.5

마이너스 무한대부터 180까지 확률 밀도를 다 더함

pnorm(180, 170, 10)

[1] 0.8413447

160~180에 속하는 사람의 비율

pnorm(180, 170, 10) - pnorm(160, 170, 10)

[1] 0.6826895

히스토그램을 그리면

hist(x, prob = T)

prob = T를 해주면 세로축이 확률 밀도로 바뀜

정규분포 커브를 추가하면

hist(x, prob = T)
curve(dnorm(x, 170, 10), add = T, col='red')

퍼센트 계산

하위 10% 확률

qnorm(0.1, 170, 10)

[1] 157.1845

상위 10% 확률

qnorm(0.9, 170, 10)

[1] 182.8155