상관의 함정

이번에는 상관계수를 해석할 때 주의해야할 점들에 대해 살펴보도록 하겠습니다.

허구 상관

통계학에는 상관이 인과를 의미하는 것은 아니다(Correlation does not imply causation)라는 굉장히 중요한 격언이 있습니다. 커피를 많이 마시면 사망률이 감소한다고 해서, 커피가 사망에 인과적으로 영향을 주는 것은 아닐 수도 있다는 것입니다. 예를 들어 건강한 사람들은 커피를 많이 마시고, 아픈 환자들은 커피를 적게 마신다면, 커피가 직접적으로 죽고 사는데 영향을 주지 않더라도 커피 섭취량과 사망률 사이에는 음의 상관관계가 나타납니다. 우리가 상관 관계를 해석할 때는 항상 이점에 주의해야 합니다.

이렇게 별 인과관계가 없는데도 나타나는 상관 관계를 허구 상관(spurious correlation)이라고 합니다. 예를 들어, 아이스크림 판매량과 살인 건수 사이에 높은 상관 관계가 있는 경우가 있습니다. 아이스크림이 많이 팔리면 살인도 증가한다는 거예요. 그런데 이 둘 사이에는 별 관련이 없지만, 날씨라는 공통의 요인에 영향을 받기 때문에 이런 현상이 나타납니다. 즉, 날씨가 더워지면 아이스크림 판매량도 늘어나고 또 살인을 포함해서 범죄도 늘어납니다. 결과적으로 아이스크림 판매량과 살인 사건 수 사이에 + 상관관계가 나타나는 것이죠.

상관계수와 데이터의 다양한 패턴

상관계수는 일정한 관계만을 나타낼 수 있습니다. 피어슨 상관계수는 선형적인 관계만을 나타냅니다. 스피어만이나 켄달은 비선형적인 관계를 나타낼 수 있지만, 단조적인 관계로만 제한됩니다. 따라서 상관계수가 높다면, 두 변수 사이에 어떤 관계가 있는 것은 분명합니다. 그렇지만 상관계수가 낮다고 해서, 반드시 두 변수가 관계가 없다고 할 수는 없어요. 그래서 두 변수의 관계를 살펴볼 때는 산점도를 그려 시각화를 해보고, 또 여러 가지 상관계수를 구해서 수치들을 비교해볼 필요가 있습니다.

또 데이터에 이상치(outlier)가 있으면 상관계수가 크게 왜곡이 될 수 있습니다. 이상치란 패턴에서 크게 벗어나는 값을 말합니다. 이상치에 따라 상관계수가 커지거나 작아질 수도 있습니다. 시각화는 이상치를 찾는데도 유용합니다. 그림을 그려서 너무 혼자 동떨어진 점이 있는지 살펴보면 좋습니다. 또, 다른 방법은 데이터의 일부만 무작위로 뽑아서 상관계수를 다시 구해보는 것입니다. 원래 데이터에 이상치가 있을 경우, 무작위로 뽑은 데이터에 이상치가 빠지면 상관계수가 크게 달라질 수 있습니다.

심슨의 역설

그리고 심슨의 역설(Simpson's paradox)이라는 현상도 있습니다. 이것은 전체에서 나타나는 데이터의 패턴과 부분에서 나타나는 데이터의 패턴은 서로 달라서 생기는 현상입니다.

한 가지 예를 들어보죠. 어떤 도시에서 집값이 비싼 중심가는 일찍부터 개발되어 헌집이 많고, 집값이 싼 외곽에는 나중에 개발되어 새집이 많다고 해봅시다. 그러면 중심가면 중심가, 외곽이면 외곽 이런 식으로 한 부분만 보면 새집이 헌집보다 더 비싸게 보입니다. 그런데 도시 전체를 놓고 보면 헌집이 새집보다 비싸보이는 현상이 나타납니다. 즉, 부분을 보느냐 전체를 보느냐에 따라 상관관계가 역전되어서 나타날 수 있는 것입니다.