통계의 기본 개념

복잡한 수학을 빼고 통계의 기본 개념을 알아봅니다


수강중

12. 유명한 확률분포들

유명한 확률분포

  • 이항, 정규, 지수, 푸아송 분포들이 가장 유명함
  • 항등
    • 모든 경우의 확률이 항상 같음
    • 동전과 같이 앞면, 뒷면 나올 확률이 같은 경우
  • 베르누이
    • 한 번 던졌을 때 앞면이 나올지? 뒷면이 나올지?
    • 이항분포의 특수한 경우
    • 이항분포: 동전이 앞면이 나올 확률이 70%일 때 몇 번 던지면 몇 번이 앞면이 나오나?
  • 기하, 초기하, 음이항은 이항 분포의 특수한 형태
  • 와이불은 지수 분포에 변동폭 개념을 포함한 확장된 분포
    • 예) 두 택배 회사가 있는데 두 택배 회사 모두 평균적으로 24시간 안에 도착하지만 1 회사는 24시간에서 +- 1시간 안에 90%가 도착하지만 2회사는 분산이 커 12시간이 걸릴 때도 있고 일주일이 걸릴 때도 있음
    • 실제 데이터에서 분석할 땐 지수분포보다 더 많이 사용됨
  • 카이제곱, $F$, $t$은 실제 데이터에서 예측할 때 사용하는 것이 아니고 그 데이터를 가지고 분석을 하는 과정에서 나오는 확률분포

유명한 확률 분포는 왜 유명한가?

  • 극단적으로 단순한 가정을 깔고 있음
    • 이항분포: 동전 던지기에서 동전은 아무 것도 기억하지 않고 성격도 없고 기운도 없고 아주 단순한 대상이기에 단순한 가정을 깔고 있음
  • 수학적으로 간단하고 계산이 쉬움
  • 현실에는 정확히 맞지 않지만 얼추 맞는 경우가 많음
    • 정규 분포: 실제로 정규 분포에 정확히 맞는 데이터는 거의 없지만 평균 근처에 데이터가 몰린 얼추 정규 분포에 비슷한 데이터들을 매우 많음
  • 통계는 어짜피 추정임

나의 데이터에 맞는 확률분포가 없을 때?

  • 직접 만들기 -> 어려움
  • 유명한 확률 분포를 응용하기
    • 데이터가 중간이 없이 양 극단에 몰려 있다면 정규분포 2개가 합쳐진 것으로 간주
    • 평균에 따라 확률이 좌우되는데 '평균이 무언가에 의해 좌우된다'고 가정해서 정규분포가 여러 가지 형태를 가질 수 있게 확장 -> 회귀분석
  • 데이터를 많이 모으기
    • 응용도 어렵다면 데이터를 많이 모아 정확성을 높임
  • 기계 학습
    • 추정을 위한 것이 아닌 예측을 잘 하기 위한 것
    • 일부는 통계적 기법을 사용해서 확률 분포를 사용하지만 일부는 확률분포를 사용하지 않고 예측을 함