로그인
회원가입
HOWTO
로그인
회원가입
HOWTO
메뉴오픈
상관과 회귀
예측 분석의 기본이 되는 상관과 회귀의 개념을 알아봅니다
명
수강중
강의
Q&A
2. 여러 가지 상관
Pearson Correlation Coefficient(두 연속 변수)
Rank Correlation(연속 혹은 순서 변수)
Polychoric Correlation(순서 변수)
Autocorrelation
경제학이나 지리학적 데이터를 다룰 때 사용
Pearson Correlation Coefficient(두 연속 변수)
두 연속 변수 사이의 선형적 관계를 찾는 방법
선형적 관계: 하나가 증가하면 하나가 증가하는 관계 혹은 하나가 증가하면 하나가 감소하는 관계
피어슨 상관계수는 아래와 같은 예시에는 적절하지 않음
예) 야구선수의 전성기는 28인데 나이가 들수록 기량이 상승하다가 28이 지나면서 기량이 하락하여 곡선 형태의 그래프가 그려지게 됨
일반적으로 가장 많이 사용하는 값
연속 변수가 아닌 데이터에 적용된다면 구할 순 있지만 의미가 원래 해석하고자 했던 것과는 다르게 됨
예) 기온과 코트 판매량: 기온과 코트 판매량 모두 연속 변수
예) 학생의 학교 점수와 사교육비의 관계
Rank Correlation(연속 혹은 순서 변수)
Spearman's rho, Kendall's tau, ...
순위에 대한 상관을 매겨보고 싶을 때 사용
예) 사교육비 등수와 학생의 학교 등수
(사교육비 등수, 학교 등수)
(1, 1), (2, 2), (3, 3) # 같은 방향으로 움직임(양의 상관)
(1, 3), (2, 2), (3, 1) # 반대 방향으로 움직임(음의 상관)
(1, 3), (2, 1), (3, 2) # 관계가 없어보임
순위를 사용하는 것은 숫자를 사용하는 것보다 정보를 줄여서 사용하는 것과 비슷함
그렇다고 해서 피어슨 상관계수가 더 유리한 것은 아님
종종 연속 변수에 대해서 Rank correlation을 구하는 것이 유리할 때도 사용
각각의 간격은 중요하지 않고 순위가 중요한 경우에는 상관을 잘 잡아낼 수 있음
즉, 순위 상관 계수가 피어슨 상관계수보다 높다면 그래프를 그려보고 직선 관계가 아닌 비선형 관계를 가지는 상관이 있을 수 있다고 의심해 볼 수 있음
Polychoric Correlation(순서, 범주 변수)
겉보기에는 이산 변수처럼 보이지만 실제로는 연속적인 성질을 가지는 어떤 값이 존재할 때 사용
예) 시험 통과 여부(Y/N)와 사람의 아이큐 간의 상관관계
시험 통과 여부는 이산 변수이지만 실제로 시험 통과는 연속 변수인 시험 점수를 보고 판단하는 것임
예) 외향성/내향성과 우울 점수 간의 상관
외향성/내향성을 구분하는 데에는 심리적 점수가 존재할 수도 있음
외향적인 사람이라고 해도 사람마다 외향성 수준이 다를 것임
실제로는 잘 사용하지 않은데 많이 쓰이는 곳은 심리 측정 분야
Autocorrelation
내가 관찰한 자료가 서로 간에 독립적으로 뽑힌 것이 아니라 어떤 추세가 존재할 때 사용(주로 시공간적 추세)
예) 기온은 주기 함수 모양의 패턴을 가지기 때문에 여름 기온을 알고 있으면 가을 기온을 어느 정도 예측할 수 있음
경제학, 지리학 분야에서 많이 사용하며 신호나 뇌 영상과 관련된 분석을 할 때도 사용
특정 분야에서는 교정해야 할 대상이기도 함(fMRI 분석 등)
자기 상관이 존재한다면 ARMA, fMRI 등의 방법을 사용
상관이란?
상관계수의 기본개념 및 성질
목차
상관
상관이란?
여러 가지 상관
상관계수의 기본개념 및 성질
상관계수 구하기
상관계수 시각화하기
상관계수의 함정
회귀
회귀분석이란?
회귀분석 실습 1
회귀분석 실습 2
모형 점검
중다회귀
조정된 결정계수
중다회귀의 문제
로지스틱 회귀
로지스틱 회귀(이론)
로지스틱 회귀(분석)