차원 축소

복잡한 데이터의 패턴을 파악하고 시각화하는 차원축소를 알아봅니다


수강중

6. 표준화와 PCA

  • 목표: 첫 번째 차원이 Assault를 너무 많이 반영하여 표준화를 진행 한 뒤 다시 PCA

표준화

  • 데이터에서 평균을 빼주고 표준 편차로 나누어 평균이 0이고 표준 편차가 1이 되도록 만들어주는 것
  • 수능에서 원점수와 상관 없이 평균에 비해 얼마나 큰지 작은지를 나타내 등급을 정할 때 사용

데이터 확인

USArrests
               Murder Assault UrbanPop Rape
Alabama        13.2   236     58       21.2
Alaska         10.0   263     48       44.5
Arizona         8.1   294     80       31.0
Arkansas        8.8   190     50       19.5
  • 변수마다 단위가 다름
  • Assault가 단위가 커 많이 반영하게 됨

표준화하기

scale(USArrests)
               Murder      Assault     UrbanPop    Rape        
Alabama         1.24256408  0.78283935 -0.52090661 -0.003416473
Alaska          0.50786248  1.10682252 -1.21176419  2.484202941
Arizona         0.07163341  1.47880321  0.99898006  1.042878388
Arkansas        0.23234938  0.23086801 -1.07359268 -0.184916602
  • 평균 0, 표준 편차 1

표준화하여 주성분분석하기

arrest.pca = prcomp(USArrests, scale. = T)
summary(arrest.pca)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.5749 0.9949 0.59713 0.41645
Proportion of Variance 0.6201 0.2474 0.08914 0.04336
Cumulative Proportion  0.6201 0.8675 0.95664 1.00000
  • 첫 번째 차원에 극단적으로 몰리지 않음
  • 하나의 차원으로 62%를 설명하는 것도 많이 설명한다고 볼 수 있음
  • 두 개의 차원으로 86%를 설명

시각화

biplot(arrest.pca)
  • 네 개의 변수가 비슷하게 반영되었음
  • 각 축의 바깥으로 갈수록 그 변수의 값이 커지는 지역임
  • 좌측 하단: 범죄도 많고 도시 인구도 많은 지역
  • 좌측 상단: 범죄는 많고 도시 인구는 적은 지역
  • 우측 상단: 범죄도 적고 도시 인구도 적은 지역
  • 우측 하단: 범죄는 적고 도시 인구는 많은 지역