데이터 탐색(MovieLens)
RSTUDIO 실행하기 및 작업 디렉토리 설정하기
데이터 불러오기
m <- read.csv('MovieLense.csv', stringsAsFactors = FALSE)
데이터 탐색
View(m)
str(m)
dim(m)
nrow(m)
ncol(m)
head(m)
원소 총 갯수
nrow(m) * ncol(m)
NA 갯수
sum(is.na(m))
NA가 포함되지 않은 갯수
sum(!is.na(m))
영화별 평균 평점 히스토그램
hist(colMeans(m, na.rm = T))
hist(colMeans(m, na.rm = T), breaks = 50)
개인당 몇 개의 영화에 대하여 평점을 매겼을까?
hist(apply(m, 1, function(x) sum(!is.na(x))), breaks = 50)
apply 사용법
colMeans(m, na.rm=T)
apply(m, 2, mean, na.rm=T)
apply(m, 2, median, na.rm=T)
영화별 사용자 평점 히스토그램
hist(m[,1], main = colnames(m)[1])
hist(m[,2], main = colnames(m)[2])
hist(m[,3], main = colnames(m)[3])
hist(m[,4], main = colnames(m)[4])
hist(m[,5], main = colnames(m)[5])