차원 축소

복잡한 데이터의 패턴을 파악하고 시각화하는 차원축소를 알아봅니다


수강중

1. 강의 소개

변수

  • 데이터를 이루는 여러 건의 자료들 속 달라지는 정보들
  • 사람: 이름, 키, 나이, 전화번호 등
  • 스마트폰: CPU, 화면 크기 운영체제, 제조사 등
  • 자동차: 모델, 연료, 크기, 엔진 등

차원

  • 위치를 나타내는데 필요한 숫자의 개수
  • 3차원: 가로, 세로, 높이

변수와 차원

  • 변수와 차원은 비슷한 개념으로 생각할 수 있음
이름 면적 인구
한국 100,210 50,617,045
일본 377,944 126,989,659
필리핀 300,000 102,370,400
  • 변수: 면적, 인구

  • 면적과 인구를 하나의 차원으로 나타내 2차원 상에 표현

변수가 많을 때 생기는 문제들

  • 컴퓨터: 처리해야 할 데이터가 많아지면 메모리가 많이 필요하고 시간도 오래 걸림
  • 시각화: 변수가 많아지면 그래프로 표현하기 어려움
  • 분석: 쓸모없는 변수들도 포함되어 결과가 잘못 나올 수도 있음
  • 데이터: 변수가 많아질수록 필요한 데이터가 많아짐
  • 해석: 변수가 많아지면 해석하기가 어려움

해결책

  • 변수 선택: 중요한 변수만 사용
  • 변수 추출: 새로운 변수를 생성
이름 면적($km^2$) 면적($mi^2$)
한국 100,210 38,691
일본 377,944 145,925
필리핀 300,000 115,831

  • 대부분의 데이터에는 중복 정보들이 존재함
  • 한국, 필리핀, 일본이 한 직선에 표현됨
  • 변수가 두 가지이지만 사실은 하나의 변수만 있어도 면적을 표현할 수 있음

  • 하나의 선으로 표현되진 않지만 대략적으로 경향성을 보임
  • 약간의 정보 손실은 감수하고 이런 식으로 데이터를 변경할 수 있음
  • 점선만큼 왜곡이 생김
  • 변수가 두 개에서 하나로 줄어듦
  • 정보를 잃는 대신 변수를 줄임

변수를 줄여도 괜찮을까?

  • 차원을 축소하면서 데이터가 일부 사라짐
  • 그러나 대부분의 정보는 존재
  • 남은 것은 여러 변수에 공통적인 정보를 갖고 있음
  • 점들이 옮겨지면서 그만큼의 오차가 생기지만 증가하는 패턴은 여전히 그대로 존재함
  • 모든 변수에는 오차와 잡음이 섞여 있음
  • 오차는 각 변수에 들어가는 독특한 것이기 때문에 공통 정보만 추출하면 오차와 잡음도 사라짐
  • 정보가 줄어서 더 좋은 정보가 될 수 있음

변수가 줄어서 해결되는 문제들

  • 컴퓨터
  • 시각화
  • 분석
  • 데이터
  • 해석(?): 해석이 쉬워지기도 하지만 어려워지는 경우도 있음
    • 해석이 쉬워지는 경우: 고객 만족도 조사
      • 별점: 고객마다 별점 주는 기준이 다를 수 있고 무성의한 응답을 하는 경우도 있음
      • 재방문: 재구매를 위한 방문일 수도 있으나 이전에 샀던 재품을 반품이나 교환하러 왔을 수도 있음
      • 이러한 부정확한 변수들을 합쳐 하나의 변수로 만들면 더 정확해져 해석이 더 쉬워짐
    • 해석이 어려워지는 경우: 반대로 서로 상관 없는 것들을 합쳐 놓으면 정보는 많이 보존되어 있지만 정보의 의미가 무엇인지 해석하기 어려움

차원 축소의 방법들

  • 주성분분석(PCA)
  • 요인분석(FA): 연구방법론으로 많이 쓰임
  • 독립성분분석(ICA): 특수한 분야에서만 사용
  • 다차원 척도법(MDS)
  • 비선형 차원축소법들

차원 축소와 관련 있는 방법들

  • 인공신경망 / 딥러닝
  • 다변량 분석법 / 구조방정식 모형