Python 기초 통계

Python으로 하는 기초 통계 분석법


수강중

1. 변수와 척도

동영상이 없는 텍스트 강의 자료입니다.

변수의 종류

연속변수

  • 연속적인 값을 가지는 변수
  • 예) 나이, 점수, 무게, 가격 등

범주변수(이산변수)

  • 서로 다른 것으로 구분되는 변수
  • 예) 성별(남자/여자), 애완동물(강아지/고양이)

척도

척도(scale): 측정된 변수의 값을 표현하는 수준(levels of measurement)을 의미

명명척도(nominal scale)

  • 측정값이 같고 다름을 말할 수 있음
  • 측정값들 사이에 순서가 없음
  • 사칙연산이 불가능
  • 종류에 따른 빈도만 계산
  • 예) 혈액형

서열척도(ordinal scale)

  • 측정값들 사이에 순서가 있음
  • 측정값들의 간격이 동일하지 않음
  • 사칙연산은 불가능
  • 예) 직급(부장, 과장, 대리, ...)
    • 부장이 과장보다, 과장이 대리보다 높음
    • 부장과 과장의 차이가 과장과 대리의 차이와 같지 않음

등간척도(interval scale)

  • 측정값들 사이에 순서가 있고 간격이 일정
  • 영점(0)의 의미가 임의적 (영점을 옮겨도 무방함)
  • 덧셈, 뺄셈이 가능
  • 예) 섭씨온도
    • 섭씨 20도는 섭씨 10도보다 수치로는 2배
    • 그러나 2배 따뜻한 것이 아님
    • 화씨로 바꾸면 각각 50도와 68도가 되어 1.36배에 불과
    • 영점의 기준이 임의적이기 때문 (섭씨 0도 = 화씨 32도)

비율척도(ratio scale)

  • 등간척도 + 절대영점
  • 사칙연산 모두 가능
  • 절대영점이란, 영점의 의미가 아무 것도 존재하지 않는 상태를 말함
  • 예) 길이
    • 20미터는 10미터보다 수치로도 2배이고
    • 실제로도 2배 긺
    • 미터를 피트로 바꿔도 32.8피트와 65.6피트로 2배
    • 영점의 기준이 절대적 (0 미터 = 0 피트)

척도의 중요성

  • 척도에 따라 적용가능한 통계 분석방법이 다름
  • 숫자로 표현된 경우라 하더라도 무조건 사칙연산이 가능하지는 않음. 그 숫자의 의미(=척도)를 이해해야
    • 예) 남자 = 1, 여자 = 2로 표현하는 경우
    • 수로 표현되었지만 $1 + 1 = 2$와 같이 계산하면 남자 2명이 여자 1명과 같다는 이상한 해석이 됨
  • 가능하면 비율척도나 등간척도의 형태로 자료 수집을 하는 것이 분석에 용이
    • 예) 연령을 조사하는 경우
      • 서열척도로 조사: "어린이, 청장년, 노인"와 같이 나누어 조사
      • 비율척도로 조사: 만 나이로 조사
      • 비율척도는 다양한 계산과 분석이 가능하지만 서열척도는 어린이 몇 명, 노인 몇 명 등의 분석만 가능