상관과 회귀

예측 분석의 기본이 되는 상관과 회귀의 개념을 알아봅니다


수강중

6. 상관계수의 함정

허구 상관(Illusory Correlation)

  • 겉으로 보면 상관 관계가 존재 하는데 실제로는 두 변수 사이에 아무런 관련이 없는 것
  • 예) 아이스크림 판매량과 살인 건수의 관계?
  • 날씨가 더워지면 -> 아이스크림을 사 먹음
  • 날씨가 더워지면 -> 범죄율이 증가

  • 날씨라는 하나의 공통 요인 때문에 같은 움직임을 보이게 됨

  • 상관이 높게 나왔다고 해서 이를 바로 믿으면 안됨

상관과 인과(Correlation and Causation)

  • 코스피 지수와 치마 길이
    • 코스피 지수가 내려가면 치마 길이가 짧아진다?
    • 상관 관계는 있지만 인과 관계는 없음
  • 화재의 크기와 출동한 소방관 수

    • 불이 크게 나면 소방관이 많이 출동함
    • 반대로 소방관이 많이 출동하면 불이 크게 난다?
    • 상관 관계, 인과 관계 모두 있지만 한 방향으로만 인과 관계가 존재함
  • 인과는 시간적, 공간적 선후 관계가 존재함

  • 반드시 한 방향임

선형 관계와 비선형 관계

  • 피어슨 상관 계수는 곡선 관계는 잘 잡아 내지 못함
  • 상관 계수가 높다고 하더라도 직선 관계로 해석하면 안 됨
  • 상관 관계를 살펴 볼 땐 그래프와 함께 보는 것이 중요함

이상치 문제

  • 왼쪽 그래프
    • 맨 위의 이상치를 제외하면 직선 관계가 강함
    • 이상치를 설명하기 위한 상관을 만들기 위해 상관 계수가 약해지게 됨
  • 오른쪽 그래프
    • 맨 위의 이상치를 제외하면 상관 관계가 사라질 것임
    • 이상치에 따라 상관이 존재하는 것처럼 그래프가 그려짐
  • 잘못된 상관 관계 결론을 내리는 문제를 해결하기 위한 방법
    • 그림을 통해 찾기
    • 자료의 일부분만 사용해 상관을 여러번 구해보기

심슨의 역설: 부분과 전체는 다르다

  • 전체에서 나타나는 데이터의 패턴과 각각의 집단에서 나타나는 데이터의 패턴이 다를 수 있음
  • 새 아파트가 비쌀까? 오래된 아파트가 비쌀까?
    • 아파트 두 개를 조사
      • 오래된 아파트: 은마아파트
      • 새 아파트: 최근에 지방에 지어진 아파트
    • 은마아파트가 훨씬 더 비쌀 것임
    • 따라서 결론을 오래된 아파트가 새 아파트보다 비싸다고 결론을 내면 안 됨
  • 전체 집단의 패턴을 파악하는 것도 중요하지만 때때로 각각 집단의 패턴을 파악하는 것도 중요함

정리

상관 계수를 구하는 것은 단순하지만 구한 상관 계수를 해석하고 의미 있는 결과를 찾을 때는 많은 함정들을 고려해야 함