유명한 확률분포들 :: 통계의 기본 개념 - mindscale
유명한 확률분포들
유명한 확률분포
- 이항, 정규, 지수, 푸아송 분포들이 가장 유명함
- 항등
- 모든 경우의 확률이 항상 같음
- 동전과 같이 앞면, 뒷면 나올 확률이 같은 경우
- 베르누이
- 한 번 던졌을 때 앞면이 나올지? 뒷면이 나올지?
- 이항분포의 특수한 경우
- 이항분포: 동전이 앞면이 나올 확률이 70%일 때 몇 번 던지면 몇 번이 앞면이 나오나?
- 기하, 초기하, 음이항은 이항 분포의 특수한 형태
- 와이불은 지수 분포에 변동폭 개념을 포함한 확장된 분포
- 예) 두 택배 회사가 있는데 두 택배 회사 모두 평균적으로 24시간 안에 도착하지만 1 회사는 24시간에서 +- 1시간 안에 90%가 도착하지만 2회사는 분산이 커 12시간이 걸릴 때도 있고 일주일이 걸릴 때도 있음
- 실제 데이터에서 분석할 땐 지수분포보다 더 많이 사용됨
- 카이제곱, $F$, $t$은 실제 데이터에서 예측할 때 사용하는 것이 아니고 그 데이터를 가지고 분석을 하는 과정에서 나오는 확률분포
유명한 확률 분포는 왜 유명한가?
- 극단적으로 단순한 가정을 깔고 있음
- 이항분포: 동전 던지기에서 동전은 아무 것도 기억하지 않고 성격도 없고 기운도 없고 아주 단순한 대상이기에 단순한 가정을 깔고 있음
- 수학적으로 간단하고 계산이 쉬움
- 현실에는 정확히 맞지 않지만 얼추 맞는 경우가 많음
- 정규 분포: 실제로 정규 분포에 정확히 맞는 데이터는 거의 없지만 평균 근처에 데이터가 몰린 얼추 정규 분포에 비슷한 데이터들을 매우 많음
- 통계는 어짜피 추정임
나의 데이터에 맞는 확률분포가 없을 때?
- 직접 만들기 -> 어려움
- 유명한 확률 분포를 응용하기
- 데이터가 중간이 없이 양 극단에 몰려 있다면 정규분포 2개가 합쳐진 것으로 간주
- 평균에 따라 확률이 좌우되는데 '평균이 무언가에 의해 좌우된다'고 가정해서 정규분포가 여러 가지 형태를 가질 수 있게 확장 -> 회귀분석
- 데이터를 많이 모으기
- 응용도 어렵다면 데이터를 많이 모아 정확성을 높임
- 기계 학습
- 추정을 위한 것이 아닌 예측을 잘 하기 위한 것
- 일부는 통계적 기법을 사용해서 확률 분포를 사용하지만 일부는 확률분포를 사용하지 않고 예측을 함
처음으로