허구 상관(Illusory Correlation)
상관과 인과(Correlation and Causation)
- 코스피 지수와 치마 길이
- 코스피 지수가 내려가면 치마 길이가 짧아진다?
- 상관 관계는 있지만 인과 관계는 없음
화재의 크기와 출동한 소방관 수
- 불이 크게 나면 소방관이 많이 출동함
- 반대로 소방관이 많이 출동하면 불이 크게 난다?
- 상관 관계, 인과 관계 모두 있지만 한 방향으로만 인과 관계가 존재함
인과는 시간적, 공간적 선후 관계가 존재함
- 반드시 한 방향임
선형 관계와 비선형 관계
- 피어슨 상관 계수는 곡선 관계는 잘 잡아 내지 못함
- 상관 계수가 높다고 하더라도 직선 관계로 해석하면 안 됨
- 상관 관계를 살펴 볼 땐 그래프와 함께 보는 것이 중요함
이상치 문제
- 왼쪽 그래프
- 맨 위의 이상치를 제외하면 직선 관계가 강함
- 이상치를 설명하기 위한 상관을 만들기 위해 상관 계수가 약해지게 됨
- 오른쪽 그래프
- 맨 위의 이상치를 제외하면 상관 관계가 사라질 것임
- 이상치에 따라 상관이 존재하는 것처럼 그래프가 그려짐
- 잘못된 상관 관계 결론을 내리는 문제를 해결하기 위한 방법
- 그림을 통해 찾기
- 자료의 일부분만 사용해 상관을 여러번 구해보기
심슨의 역설: 부분과 전체는 다르다
- 전체에서 나타나는 데이터의 패턴과 각각의 집단에서 나타나는 데이터의 패턴이 다를 수 있음
- 새 아파트가 비쌀까? 오래된 아파트가 비쌀까?
- 아파트 두 개를 조사
- 오래된 아파트: 은마아파트
- 새 아파트: 최근에 지방에 지어진 아파트
- 은마아파트가 훨씬 더 비쌀 것임
- 따라서 결론을 오래된 아파트가 새 아파트보다 비싸다고 결론을 내면 안 됨
- 전체 집단의 패턴을 파악하는 것도 중요하지만 때때로 각각 집단의 패턴을 파악하는 것도 중요함
정리
상관 계수를 구하는 것은 단순하지만 구한 상관 계수를 해석하고 의미 있는 결과를 찾을 때는 많은 함정들을 고려해야 함