변수 :: 통계 - mindscale
Skip to content

변수

사례와 변수

이번 시간에는 사례와 변수에 대해서 알아보도록 하겠습니다.

사례(case)는 데이터 수집의 단위를 말합니다. 만약에 우리가 고객의 데이터를 분석을 한다면, 고객 1명이 하나의 사례가 되겠죠. 또 우리가 상품 데이터를 분석한다고 하면, 하나의 상품이 하나의 사례가 될 겁니다.

이렇게 우리가 여러 명의 고객을 모으고 또 여러 개의 상품을 모으면 그런 사례마다 다른 값을 가지는 특성들이 있습니다. 이런 특성을 변수(variable)라고 합니다. 여러 명의 고객들을 모아보면 고객들마다 만족도가 다를 거예요. 그러면 만족도가 하나의 변수가 되는 거죠. 또 상품마다 크기도 다르고 색상도 다르겠죠. 그러면 크기나 색상 같은 것들이 변수가 되게 됩니다.

보통 데이터를 표 형태로 정리를 하게 되는데요. 이때 표에서 이 가로 방향을 행(row)이라고 하고요. 세로 방향은 열(column)이라고 부릅니다. 데이터를 표로 정리를 할 때, 하나의 사례는 하나의 행에, 하나의 변수는 하나의 열로 쓰는 것이 통계에서 관습입니다. 대부분의 통계 기법들은 이런 형식으로 데이터가 정리되어 있다고 가정하고 만들어져 있기 때문에 여러분들도 데이터를 정리하실 때는 이 형식에 맞춰서 정리해주시는 것이 좋습니다.

엑셀 같은 프로그램으로 표를 작성할 때 예쁘게 짜려고 표 중간에 간격을 띄우기도 하고 한 줄로 써야 될 걸 두 줄로 쓰거나, 칸들을 합치기도 하는데요, 이렇게 하면 나중에 데이터 분석을 할 때 여러 가지 문제가 생깁니다. 만약에 사람이 보는 목적으로 이렇게 표를 꾸미신다면, 원자료는 장식없이 별도의 파일로 만들어두시는 것이 좋습니다.

자료의 종류

다음으로 자료의 종류에 대해 알아보도록 하겠습니다. 자료는 여러가지 방식으로 나눌 수 있지만, 크게 나누면 연속형과 범주형 두 가지로 나눌 수가 있습니다. 자료의 종류에 따라서 가능한 연산이 달라지기 때문에 이렇게 구분합니다.

연속형 자료

연속형 자료는 이름 그대로 값이 연속적으로 나타나는 자료입니다. 대표적으로 길이, 무게 같은 물리적인 양이 이에 해당합니다. 길이의 경우에 1m, 2m, 3m 이렇게 늘어나지만 1m와 2m 사이에 1.5m가 있고, 1m와 1.5m 사이에도 1.25m가 있고 이렇게 무한히 나눌 수 있죠. 수학적으로 말하면 실수(real number)로 표현할 수가 있습니다. 간단히 말하면, 연속형 자료란 실수로 표현할 수 있는 자료를 말합니다.

연속형 자료에는 우리가 일반적으로 알고 있는 수학적 연산을 모두 할 수 있습니다. 덧셈, 뺄셈 등등. 여러분도 잘 아시는 평균은 모드 수를 다 더한 다음에, 그 개수로 나누어 구하는 것이죠. 평균을 구하려면 연속형 자료여야 합니다.

실무적으로는 완전히 연속형이 아니더라도 어느 정도 일정한 간격이 있으면 연속형 자료와 같이 취급합니다. 예를 들어 시험 점수나 물체의 개수 같은 것입니다. 물체의 개수는 1개, 2개, 3개 이렇게 늘어나고 정확히 말해 1.35개 같은 것은 없지만 연속형 자료로 취급해도 무리가 없습니다. 헷갈리실 때는 이 자료에서 '평균'이 의미가 있는지 생각해보시면 됩니다. 평균 점수나 평균 개수라는 개념이 크게 이상하지 않잖아요? 그것은 이런 자료도 연속형으로 취급해도 무리가 없다는 것입니다.

Question

다음 중 연속형 자료인 것을 골라보세요

  • 길이
  • 성별
  • 지역

범주형 자료

범주형 자료는 범주(category), 이름(name), 유형(type)과 같은 자료입니다. 예를 들어 서울, 경기, 강원, 제주 등의 지역이나 성별 같은 것을 예로 들 수 있습니다. 범주형 자료는 이것, 아니면 저것 식으로 구분되는 것들이기 때문에 우리가 알고 있는 대부분의 연산들을 할 수 없습니다.

범주형 자료도 편의상 숫자로 표시할 때가 있습니다. 주민등록번호에 보면 뒷자리 첫번째 번호가 성별을 나타내죠. 생년에 따라 남자는 1 또는 3, 여자는 2 또는 4로 표시합니다. 그런데 이런 숫자는 연속형 자료와 달리 덧셈이나 뺄셈을 할 수 없습니다. 어느 집에 아빠(1)와 아들(3)이 있으면 평균이 얼마입니까? 2가 되죠? 그러면 이 집에는 평균적으로 엄마(2)가 있다? 뭔가 말이 안되죠? 왜냐하면 범주형 자료에서 숫자는 연속형 자료와 달리 양적인 의미가 없고, 그래서 더하거나 빼는 연산을 하면 말이 안되기 때문입니다.

Question

다음 중 범주형 자료인 것을 골라보세요

  • 무게
  • 나이
  • 차종

Question

통계 분석의 주제를 정해서, 그 데이터를 가상으로 만들어보세요

  • 어떤 연속형 변수가 있겠습니까?
  • 어떤 범주형 변수가 있겠습니까?