도수분포표와 히스토그램
- 도수분포표(frequency table): 데이터를 구간으로 나누어, 각 구간의 빈도를 나타낸 표
- 히스토그램(histogram): 도수분포표를 그래프로 그린 것
범주 변수
다음과 같이 혈액형이 있다고 하자.
blood = c('A', 'A', 'A', 'B', 'B', 'AB', 'O')
도수 분포표:
ft = table(blood)
ft
blood A AB B O 3 1 2 1
시각화:
barplot(ft)
연속변수
x = c(1, 1, 1, 2, 3, 5, 5, 7, 8, 9)
데이터를 구간으로 나눠 빈도표를 만든다.
h = hist(x, plot = F)
데이터의 구간의 경계를 확인한다.
h$breaks
[1] 0 2 4 6 8 10
수동으로 각 구간의 경계를 지정할 수 있다. 다음과 같이 하면 1, 3, 5, 7, 9를 경계로 4구간으로 나눈다. 1 ~ 3인 구간에서는 1은 포함하고, 3은 포함하지 않는다.
h = hist(x, breaks = c(1, 3, 5, 7, 9), plot = F)
각 구간의 빈도를 확인한다. 1부터 3까지 구간의 빈도는 4, 3부터 5까지 구간의 빈도는 1, 등등
h$counts
[1] 5 2 1 2
시각화:
plot(h)
hist
함수에서 plot = F
를 하지 않으면 바로 시각화한다.
hist(x, breaks = c(1, 3, 5, 7, 9))