차원 축소

복잡한 데이터의 패턴을 파악하고 시각화하는 차원축소를 알아봅니다


수강중

12. 비선형 차원축소

  • s자 패턴이 보임
  • 곡선의 패턴을 새로운 축으로 잡음
  • 축을 직선으로 펼침
  • 2차원 공간에 있던 데이터가 1차원에서 존재

비선형 차원축소의 방법들

  • Autoencoders
    • 뉴럴네트워크나 딥러닝에서 많이 볼 수 있음
  • Kernel principal component analysis
    • 커널 트릭을 넣어 선형 방법을 비선형 방법으로 바꿈
  • IsoMap
  • Locally-linear embedding(LLE)
  • Modified Locally-Linear Embedding(MLLE)
    • LLE를 확장한 개념
  • t-distributed stochastic neighbor embedding

  • 이번 강의에서는 Isomap, Locally-linear embedding, t-distributed stochastic neighbor embedding 세 가지 방법을 다룰 예정

IsoMap

  • MDS와 비슷
  • MDS는 모든 데이터들의 거리를 거리 행렬로 만들어 그 행렬에 맞게 점들을 위치시킴
  • IsoMap은 이웃에 있는 점들과의 거리만을 사용함
  • 멀리 떨어진 점들과의 거리는 이웃한 점들을 이어서 사용함
  • 그 이유는 공간이 휘어져 있을 때 상대적으로 가까이 있지만 끊어진 부분이 있을 수 있는데 IsoMap은 끊어진 부분들을 무시하고 이어진 부분을 연속으로 따라가서 거리를 재기 때문

  • 스위스 롤케익 문제
  • 이러한 데이터를 MDS나 PCA를 하게 되면 평평하게 되거나 모양이 말려 있는 쪽의 면을 보여줌
  • 그러나 IsoMap을 이용하면 말려 있는 것을 펼칠 수 있음

LLE

  • IsoMap과 비슷함
  • PCA와 비슷함
  • 원래 차원에서 한 점과 이웃한 점들의 관계를 찾음
  • 낮은 차원에서 같은 관계가 유지되도록 점의 좌표를 찾음
  • 휘어진 데이터라고 해도 부분만 보면 직선처럼 보임

  • 각 색만 보면 평평함
  • 따라서 각 색별로 이어 평평하게 만들 수 있음

t-SNE

  • IsoMap과 LLE는 연속적인 형태에 유리하기 때문에 끊어져 있는 데이터나 흩어져 있는 데이터와는 잘 맞지 않음
  • t-SNE는 데이터의 부분적 구조에 초점, 복잡한 형태에 유리
  • 큰 차원의 데이터를 낮은 차원으로 내리기 때문에 전체적인 구조를 잘 보존하지 못하고 부분적인 구조를 잘 보존함
  • 돌아가는데 시간이 오래 걸림
  • 돌릴 때마다 결과가 달라짐