R 기초 통계

R로 하는 기초 통계 분석법


수강중

2. 도수분포표와 히스토그램

동영상이 없는 텍스트 강의 자료입니다.
  • 도수분포표(frequency table): 데이터를 구간으로 나누어, 각 구간의 빈도를 나타낸 표
  • 히스토그램(histogram): 도수분포표를 그래프로 그린 것

범주 변수

다음과 같이 혈액형이 있다고 하자.

blood = c('A', 'A', 'A', 'B', 'B', 'AB', 'O')

도수 분포표:

ft = table(blood)
ft
blood
 A AB  B  O 
 3  1  2  1 

시각화:

barplot(ft)

연속변수

x = c(1, 1, 1, 2, 3, 5, 5, 7, 8, 9)

데이터를 구간으로 나눠 빈도표를 만든다.

h = hist(x, plot = F)

데이터의 구간의 경계를 확인한다.

h$breaks
[1]  0  2  4  6  8 10

수동으로 각 구간의 경계를 지정할 수 있다. 다음과 같이 하면 1, 3, 5, 7, 9를 경계로 4구간으로 나눈다. 1 ~ 3인 구간에서는 1은 포함하고, 3은 포함하지 않는다.

h = hist(x, breaks = c(1, 3, 5, 7, 9), plot = F)

각 구간의 빈도를 확인한다. 1부터 3까지 구간의 빈도는 4, 3부터 5까지 구간의 빈도는 1, 등등

h$counts
[1] 5 2 1 2

시각화:

plot(h)

hist 함수에서 plot = F를 하지 않으면 바로 시각화한다.

hist(x, breaks = c(1, 3, 5, 7, 9))