dplyr 소개
dplyr은 데이터를 아주 편리하게 다룰 수 있는 방법들을 제공하는 r 패키지이다.
설치
아래와 같이 입력한다
install.packages('dplyr')
불러오기
library(dplyr)
Attaching package: ‘dplyr’ The following objects are masked from ‘package:stats’: filter, lag The following objects are masked from ‘package:base’: intersect, setdiff, setequal, union
매출 데이터를 불러온다
매출 = read.csv("data_mac.csv")
filter()
아래와 같이 입력한다.
1월달 자료만 뽑아 낸다
filter(매출, 매출월 ==1)
매출월 요일 점포 성별 구매건수 1 1 월 a 남 21451 2 1 화 b 여 24922 3 1 수 c 남 8835 4 1 목 d 여 13720 ...
dplyr
을 추가적으로 설치해서 사용하는 이유
- 빠른 속도
- dplyr의 chain 기능 (연속적인 필터링이 편리하게 사용 가능하다)
체인 기능
%>%
을 이용하여 사용한다.
아래와 같이 입력한다
'매출 데이터를 filter에 넣어 매출월이 1월인것만 추출해라'의 뜻이다.
매출 %>% filter(매출월 ==1)
매출월 요일 점포 성별 구매건수 1 1 월 a 남 21451 2 1 화 b 여 24922 3 1 수 c 남 8835 4 1 목 d 여 13720 ...
%>%
로 성별에 대한 추가 체인을 설정한다.
매출 %>%
filter(매출월 ==1) %>%
filter(성별 == '남')
매출월 요일 점포 성별 구매건수 1 1 월 a 남 21451 2 1 수 c 남 8835 3 1 금 e 남 10826 4 1 일 g 남 2471 ...
%>%
로 요일에 대한 추가 체인을 설정한다.
매출 %>%
filter(매출월 ==1) %>%
filter(성별 == '남') %>%
filter(요일 == '월')
매출월 요일 점포 성별 구매건수 1 1 월 a 남 21451 2 1 월 o 남 49704 3 1 월 n 남 615 4 1 월 m 남 34339 ...