비선형 차원축소
- s자 패턴이 보임
- 곡선의 패턴을 새로운 축으로 잡음
- 축을 직선으로 펼침
- 2차원 공간에 있던 데이터가 1차원에서 존재
비선형 차원축소의 방법들
- Autoencoders
- 뉴럴네트워크나 딥러닝에서 많이 볼 수 있음
- Kernel principal component analysis
- 커널 트릭을 넣어 선형 방법을 비선형 방법으로 바꿈
- IsoMap
- Locally-linear embedding(LLE)
- Modified Locally-Linear Embedding(MLLE)
- LLE를 확장한 개념
-
t-distributed stochastic neighbor embedding
-
이번 강의에서는 Isomap, Locally-linear embedding, t-distributed stochastic neighbor embedding 세 가지 방법을 다룰 예정
IsoMap
- MDS와 비슷
- MDS는 모든 데이터들의 거리를 거리 행렬로 만들어 그 행렬에 맞게 점들을 위치시킴
- IsoMap은 이웃에 있는 점들과의 거리만을 사용함
- 멀리 떨어진 점들과의 거리는 이웃한 점들을 이어서 사용함
- 그 이유는 공간이 휘어져 있을 때 상대적으로 가까이 있지만 끊어진 부분이 있을 수 있는데 IsoMap은 끊어진 부분들을 무시하고 이어진 부분을 연속으로 따라가서 거리를 재기 때문
- 스위스 롤케익 문제
- 이러한 데이터를 MDS나 PCA를 하게 되면 평평하게 되거나 모양이 말려 있는 쪽의 면을 보여줌
- 그러나 IsoMap을 이용하면 말려 있는 것을 펼칠 수 있음
LLE
- IsoMap과 비슷함
- PCA와 비슷함
- 원래 차원에서 한 점과 이웃한 점들의 관계를 찾음
- 낮은 차원에서 같은 관계가 유지되도록 점의 좌표를 찾음
- 휘어진 데이터라고 해도 부분만 보면 직선처럼 보임
- 각 색만 보면 평평함
- 따라서 각 색별로 이어 평평하게 만들 수 있음
t-SNE
- IsoMap과 LLE는 연속적인 형태에 유리하기 때문에 끊어져 있는 데이터나 흩어져 있는 데이터와는 잘 맞지 않음
- t-SNE는 데이터의 부분적 구조에 초점, 복잡한 형태에 유리
- 큰 차원의 데이터를 낮은 차원으로 내리기 때문에 전체적인 구조를 잘 보존하지 못하고 부분적인 구조를 잘 보존함
- 돌아가는데 시간이 오래 걸림
- 돌릴 때마다 결과가 달라짐