표준화와 PCA
- 목표: 첫 번째 차원이 Assault를 너무 많이 반영하여 표준화를 진행 한 뒤 다시 PCA
표준화
- 데이터에서 평균을 빼주고 표준 편차로 나누어 평균이 0이고 표준 편차가 1이 되도록 만들어주는 것
- 수능에서 원점수와 상관 없이 평균에 비해 얼마나 큰지 작은지를 나타내 등급을 정할 때 사용
데이터 확인
USArrests
Murder Assault UrbanPop Rape Alabama 13.2 236 58 21.2 Alaska 10.0 263 48 44.5 Arizona 8.1 294 80 31.0 Arkansas 8.8 190 50 19.5 ...
- 변수마다 단위가 다름
- Assault가 단위가 커 많이 반영하게 됨
표준화하기
scale(USArrests)
Murder Assault UrbanPop Rape Alabama 1.24256408 0.78283935 -0.52090661 -0.003416473 Alaska 0.50786248 1.10682252 -1.21176419 2.484202941 Arizona 0.07163341 1.47880321 0.99898006 1.042878388 Arkansas 0.23234938 0.23086801 -1.07359268 -0.184916602 ...
- 평균 0, 표준 편차 1
표준화하여 주성분분석하기
arrest.pca = prcomp(USArrests, scale. = T)
summary(arrest.pca)
Importance of components: PC1 PC2 PC3 PC4 Standard deviation 1.5749 0.9949 0.59713 0.41645 Proportion of Variance 0.6201 0.2474 0.08914 0.04336 Cumulative Proportion 0.6201 0.8675 0.95664 1.00000
- 첫 번째 차원에 극단적으로 몰리지 않음
- 하나의 차원으로 62%를 설명하는 것도 많이 설명한다고 볼 수 있음
- 두 개의 차원으로 86%를 설명
시각화
biplot(arrest.pca)
- 네 개의 변수가 비슷하게 반영되었음
- 각 축의 바깥으로 갈수록 그 변수의 값이 커지는 지역임
- 좌측 하단: 범죄도 많고 도시 인구도 많은 지역
- 좌측 상단: 범죄는 많고 도시 인구는 적은 지역
- 우측 상단: 범죄도 적고 도시 인구도 적은 지역
- 우측 하단: 범죄는 적고 도시 인구는 많은 지역