생존분석

데이터를 이용해 사건이 언제(when) 일어나는지 예측하는 방법을 알아봅니다


수강중

8. '언제' 전체의 절반이 구매 하는가?

데이터 불러오기

sales <- read.csv('sales.csv', 
                  stringsAsFactors = F, 
                  fileEncoding = "UTF-8")

패키지 불러오기

library(dplyr)
library(survival)

구매자 중 평균 사용일 알아보기

sales %>% filter(구매여부 == 1) %>% summarise(median(사용일))
Surv(sales$사용일, sales$구매여부)

카플랜마이어를 이용한 생존 함수 그려보기

res <- survfit(Surv(사용일, 구매여부) ~ 1, data = sales, type = 'kaplan-meier')
plot(res)
summary(res)
res

전체 고객 중 50%가 유료 고객이 되는 사용일 알아보기

abline(v = 38)
abline(h = .5)

전체 고객 중 30%가 유료 고객이 되는 사용일 알아보기

## 유료고객이 0% -> 30% 
## <-> 무료 고객이 100% -> 70%
summary(res)
which.min(abs(res$surv - .7))
res$time[25]
abline(h = .7, col = 'red')
abline(v = 25, col = 'red')