데이터 탐색(MovieLens)

RSTUDIO 실행하기 및 작업 디렉토리 설정하기

데이터 불러오기

m <- read.csv('MovieLense.csv', stringsAsFactors = FALSE)

데이터 탐색

View(m)

str(m)
dim(m)
nrow(m)
ncol(m)
head(m)

원소 총 갯수

nrow(m) * ncol(m)

NA 갯수

sum(is.na(m))

NA가 포함되지 않은 갯수

sum(!is.na(m))

영화별 평균 평점 히스토그램

hist(colMeans(m, na.rm = T))
hist(colMeans(m, na.rm = T), breaks = 50)

개인당 몇 개의 영화에 대하여 평점을 매겼을까?

hist(apply(m, 1, function(x) sum(!is.na(x))), breaks = 50)

apply 사용법

colMeans(m, na.rm=T)
apply(m, 2, mean, na.rm=T)
apply(m, 2, median, na.rm=T)

영화별 사용자 평점 히스토그램

hist(m[,1], main = colnames(m)[1])
hist(m[,2], main = colnames(m)[2])
hist(m[,3], main = colnames(m)[3])
hist(m[,4], main = colnames(m)[4])
hist(m[,5], main = colnames(m)[5])