R 완전 기초

R을 완전 기초부터 시작합니다


수강중

19. dplyr 소개

dplyr은 데이터를 아주 편리하게 다룰 수 있는 방법들을 제공하는 r 패키지이다.

설치

아래와 같이 입력한다

install.packages('dplyr')

불러오기

library(dplyr)
Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union

매출 데이터를 불러온다

매출 = read.csv("data_mac.csv")

filter()

아래와 같이 입력한다.

1월달 자료만 뽑아 낸다

filter(매출, 매출월 ==1)
    매출월 요일 점포 성별 구매건수
1   1      월   a    남   21451   
2   1      화   b    여   24922   
3   1      수   c    남    8835   
4   1      목   d    여   13720   

dplyr을 추가적으로 설치해서 사용하는 이유

  • 빠른 속도
  • dplyr의 chain 기능 (연속적인 필터링이 편리하게 사용 가능하다)

체인 기능

%>%을 이용하여 사용한다.

아래와 같이 입력한다

'매출 데이터를 filter에 넣어 매출월이 1월인것만 추출해라'의 뜻이다.

매출 %>% filter(매출월 ==1)
    매출월 요일 점포 성별 구매건수
1   1      월   a    남   21451   
2   1      화   b    여   24922   
3   1      수   c    남    8835   
4   1      목   d    여   13720   

%>%성별에 대한 추가 체인을 설정한다.

매출 %>% 
    filter(매출월 ==1) %>% 
    filter(성별 == '남')
    매출월 요일 점포 성별 구매건수
1   1      월   a    남   21451   
2   1      수   c    남    8835   
3   1      금   e    남   10826   
4   1      일   g    남    2471   

%>%요일에 대한 추가 체인을 설정한다.

매출 %>% 
    filter(매출월 ==1) %>% 
    filter(성별 == '남') %>% 
    filter(요일 == '월')
   매출월 요일 점포 성별 구매건수
1  1      월   a    남   21451   
2  1      월   o    남   49704   
3  1      월   n    남     615   
4  1      월   m    남   34339