주성분 분석 (PCA)
Principal Component Analysis
사용되는 용도
- 지표 만들기: 수치가 여러 가지가 있을 때 수치들을 종합해 하나의 수치로 만드는 것
- 시각화: 대개 2차원으로 줄여 데이터를 보여줌
- 분석: 주성분분석을 한 뒤 데이터 분석을 하거나 데이터 분석에 주성분분석을 결합하기도 함
원리
- 점들이 우상향으로 퍼져 있음
- 즉, 분산이 우상향에서 가장 큼
- 분산이 초록색 화살표에서 가장 크게 존재
- 그 다음으로 분산이 파란색 화살표에서 크게 존재
- 이 두선을 새로운 축으로 잡을 수 있음
- 회전을 시키면 초록색 화살표가 가로축, 파란색 화살표가 세로축이 됨
- 각 축이 설명하는 분산들을 합치면 전체 분산이 됨
- 초록색 화살표: 성분 1에 의해 설명되는 분산
- 파란색 화살표: 성분 2에 의해 설명되는 분산
- 파란색 차원을 포기하면 파란색 방향으로 흩어진 것들은 다 없어지게 됨
- 즉, 가로 방향으로 흩어진 정도는 그대로지만 세로 방향으로 흩어진 정도는 없어짐
정리: 데이터 안의 분산의 방향을 큰 순서대로 찾아내 분산이 큰 성분을 선택