차원 축소

복잡한 데이터의 패턴을 파악하고 시각화하는 차원축소를 알아봅니다


수강중

4. 주성분 분석 (PCA)

Principal Component Analysis

사용되는 용도

  • 지표 만들기: 수치가 여러 가지가 있을 때 수치들을 종합해 하나의 수치로 만드는 것
  • 시각화: 대개 2차원으로 줄여 데이터를 보여줌
  • 분석: 주성분분석을 한 뒤 데이터 분석을 하거나 데이터 분석에 주성분분석을 결합하기도 함

원리

  • 점들이 우상향으로 퍼져 있음
  • 즉, 분산이 우상향에서 가장 큼
  • 분산이 초록색 화살표에서 가장 크게 존재
  • 그 다음으로 분산이 파란색 화살표에서 크게 존재
  • 이 두선을 새로운 축으로 잡을 수 있음
  • 회전을 시키면 초록색 화살표가 가로축, 파란색 화살표가 세로축이 됨
  • 각 축이 설명하는 분산들을 합치면 전체 분산이 됨
  • 초록색 화살표: 성분 1에 의해 설명되는 분산
  • 파란색 화살표: 성분 2에 의해 설명되는 분산
  • 파란색 차원을 포기하면 파란색 방향으로 흩어진 것들은 다 없어지게 됨
  • 즉, 가로 방향으로 흩어진 정도는 그대로지만 세로 방향으로 흩어진 정도는 없어짐

정리: 데이터 안의 분산의 방향을 큰 순서대로 찾아내 분산이 큰 성분을 선택