통계의 필요성
통계를 배워야 하는 이유
전문가 vs. 통계
1954년에 Paul E. Meehl이라는 심리학자가 책 한 권을 썼습니다. 제목이 "Clinical versus Statistical Prediction"인데요, 여기서 이제 'Clinical'이라는 것은 '병원' 이런 뜻도 있지만 '임상', '현장' 이런 뜻도 됩니다. 'Statistical'은 통계적이라는 뜻이죠. 마지막으로 'Prediction'은 예측.
이 책은 현장의 전문가가 내린 예측과 통계적 예측을 비교한 것입니다. 아주 옛날이라서 그렇게 복잡한 통계기법은 아니고, 아주 단순한 통계기법들을 사용을 했어요. 이 책의 결론이 뭐냐하면, 아주 간단한 통계적 방법조차 전문가보다 훨씬 정확하다는 것입니다.
이 책이 당시에 엄청난 이슈를 일으키고, 많은 논쟁이 벌어지게 됩니다. 여러분들 생각하시기에도 오랜 현장에서 몸 담은 전문가가 근거를 가지고 판단을 내리면 당연히 굉장히 정확하지 않겠냐 싶지요? 60년 전에 아주 초보적인 통계 방법들이 현장에서 오랫동안 경험한 전문가보다 더 정확한 예측을 한다는 주장은 좀 믿기가 힘들죠.
그래서 Meehl의 책이 나오고 나서 수십년 동안 많은 연구가 나오게 됩니다. 어떤 연구는 전문가가 낫다, 또 어떤 연구는 통계가 낫다 이런 다양한 연구들이 있어요. 2000년에 미국 미네소타 대학의 심리학자들이 이런 연구 160여편을 모아서 정리를 한 논문을 냅니다.
이 논문을 보면 전체 연구 중에 33~47%는 통계가 전문가보다 훨씬 더 정확하다는 결론을 내렸어요. 전문가가 더 정확하다는 연구는 6~16% 정도 됩니다. 평균적으로 보면 전문가의 판단보다 통계가 10%정도 정확하고요. 이 결과를 이렇게 해석하면 될 것 같네요. 대다수의 경우에는 통계가 더 정확하다. 하지만 어떤 경우에는 전문가의 판단이 더 나은 경우도 있다.
어떤 경우에 전문가의 판단이 중요할까요? 일단 통계 기법이라는 것이 모든 경우에 적용될 수 있는 것이 아닙니다. 어떤 문제들은 해당하는 통계 기법이 없는 경우가 많아요. 또, 통계 기법이 있다고 해도 데이터가 없거나 충분치 않으면 무용지물입니다. 대표적인 예로 텍스트 분석을 들 수 있습니다.
또 통계는 과거의 패턴에 바탕을 두기 때문에, 상황이 크게 변화하고 있거나 또는 예외적인 상황에는 적용이 어렵습니다. 유명한 예로 "부러진 다리 문제"라는 것이 있어요. 어떤 사람이 목요일마다 등산을 한다고 해보죠. 이 사람은 평생 단 한 번도 빼놓지 않고 목요일이면 등산을 갔어요. 이 사람이 다음 주 목요일에 등산을 갈 확률을 통계적으로 예측을 하면 100%겠지요. 그런데 만약에 이 사람이 다리가 부러졌다면 어떻게 될까요? 상식적으로 등산을 못가겠죠. 통계에는 이렇게 우리가 가진 지식을 모두 반영하기가 어렵습니다.
그러면 어떻게 해야될까요? 사실 간단합니다. 통계도 잘 활용을 하고, 전문가도 잘 활용하면 됩니다. 전문가가 통계를 잘 활용하면 제일 좋겠죠.
통계와 수학
하지만 통계는 좋아하는 사람들이 별로 없습니다. 통계의 계(計)가 계산이는 뜻이죠. 통계에는 어려운 수학이 들어갑니다. 거기다가 통계에서 쓰는 수학은 우리가 보통 배우는 수학과는 또 좀 달라요. 그래서 더 어렵다고 느껴집니다.
그런데 아주 다행스럽게도 현대에는 이 어려운 계산을 컴퓨터가 다 해줍니다. 사람이 통계에 쓰이는 수학과 계산을 자세히 몰라도 되요. 물론 알면 좋죠. 그렇지만 모르더라도 통계적 아이디어만 잘 이해하면, 충분히 활용할 수 있다는 것입니다.
통계는 무엇을 위한 것인가?
- 불확실한 상황에서 판단과 의사결정을 잘하기 위한 것
- 판단: "이렇구나"
- 의사결정: "이걸 해야겠다"
- 세상의 거의 모든 것은 불확실함
- 불확실성의 원인
- 현상 자체가 확률적
- 관찰 가능하지 않은 변수들이 있음
- 인과관계가 너무 복잡함
- 예) 사람의 마음: 이랬다 저랬다, 외부에서 관찰할 수 없음, - 메커니즘이 복잡
전문가 판단 vs. 통계적 예측
- "임상적 예측 대 통계적 예측: 증거의 이론적 분석과 검토"
- 미네소타대학교 심리학 교수 폴 밀(Paul Meehl), 1954년
- 학업성과, 정신질환의 예후 등에서 전문가의 판단보다 통계적 예측이 더 정확
- 업무 실적: 전문가 판단(r=.15) / 통계적 예측(r=.32)
- 밀의 연구 이후 수십년간 논란
- 그로브 등 (2000) 136개의 연구를 검토: 통계적 예측이 더 정확
- 통계 우위(63개 연구), 동률(65개 연구), 전문가 우위(8개)
전문가 판단 vs. 통계적 예측
- 루이스 골드버그: 전문가를 예측하는 모형이 전문가 자신보다 정확
- 전문가가 내린 판단을 예측하는 통계적 모델을 연구
- 전문가의 판단과 통계적 모델은 비슷(r=.80)
- 대상에 대한 전문가의 판단보다 전문가의 판단을 예측하는 통계적 모델이 더 정확
- 전문가의 판단은 내부/외부적 잡음에 영향을 받음
- 전문가의 판단을 예측하는 통계적 모델은 잡음에 영향 X
- 마틴 유 & 네이선 컨슬: 무작위 공식도 대부분 전문가보다 나음
- 로빈 도스: 단순 합이 대부분의 전문가보다 나음
왜 통계적 예측은 충분히 사용되지 않는가?
- 타당성의 환상: 스스로 생각하는 판단의 정확성과 실제 정확성의 괴리
- 판단을 직접 내릴 때 얻는 만족감(퍼즐이 맞춰지는 느낌)이 보상으로 작용
- 통계적 지식의 부족과 반감
- 통계가 완벽하기를 기대 → 오류에 지나치게 실망
- 인간의 실수에는 관대함
- 예측에서 단순성과 복잡성에 대한 오해
통계로 할 수 있는 것
- 대상의 특성을 수치로 표현하기
- 부분을 통해 전체를 추측하기
- 비교하기
- 예측하기
- 영향력을 미치는 변수 찾기
- 지수(index) 만들기
- 비슷한 것끼리 모으기
Question
통계로 할 수 있는 것을 하나 골라, 통계 분석의 주제를 정해보세요.