로그인
회원가입
HOWTO
로그인
회원가입
HOWTO
메뉴오픈
Python 기초 통계
Python으로 하는 기초 통계 분석법
명
수강중
강의
Q&A
19. 분산분석
동영상이 없는 텍스트 강의 자료입니다.
ANOVA란?
ANalysis Of VAriance의 약자
우리말로 "분산분석", 혹은 "변량분석"이라고 함
ANOVA가 필요한 이유
두 개 이상의 집단에 대해 평균비교를 하고자 할 때 기존의 t-test를 사용한다면, 두 집단씩 짝을 지어 t-test를 진행해야 함
세 개의 집단이 있을 때, 둘씩 짝을 짓는 경우의 수: 3가지
네 개의 집단이 있을 때, 둘씩 짝을 짓는 경우의 수: 6가지
다섯 개의 집단이 있을 때, 둘씩 짝을 짓는 경우의 수: 10가지
여섯 개의 집단이 있을 때, 둘씩 짝을 짓는 경우의 수: 15가지
t-test로만 진행한다면, 분석횟수가 기하급수적으로 증가함 $\Rightarrow$ 과잉검증의 문제가 발생함
과잉검증 문제(overtesting problem)
란?
통계적 검증 절차를 남용하여, 확률적 의사 결정에서 발생할 수 있는 오류의 확률이 필요 이상으로 증가하는 문제
예) 여섯 개 집단에 대한 평균비교를 시행할 때, 한 번이라도 1종 오류가 발생할 확률: $1 - (1 - \alpha)^{15}$
한 번의 시행에서의 유의수준($\alpha$)을 0.05라고 잡아도, 전체 유의수준은 급격하게 증가함
따라서, 이러한 오류의 확률을 통제한 상황에서 통계 분석을 진행하기 위해서 ANOVA를 실시함
오류의 확률을 통제한 상태에서 전체적인 결과에 대한 진술/서술이 용이함
집단을 구별하는 변수가 두 개 이상인 경우, 상호작용을 파악하기 용이함
ANOVA에서 사용되는 용어
요인(factor): 집단을 구별하는 (독립)변수를 분산분석의 맥락에서는 "요인"이라고 칭함. 예) 성별, 국가
수준(level): 요인의 수준. 즉, 각 집단을 의미함. 예) 요인이 "성별"일 때, 수준은 "남", "여"
상호작용: 한 요인의 수준에 따른 종속변수의 차이가 또 다른 요인의 수준에 따라 달라질 때, "요인들 간 상호작용이 존재한다"고 함
n원분산분석
요인이 n개인 분산분석을 의미
예) 일원분산분석: 요인이 1개인 분산분석
예) 이원분산분석: 요인이 2개인 분산분석
대응표본 t 검증
일원분산분석
목차
기술통계
변수와 척도
도수분포표와 히스토그램
중심경향치 (평균, 최빈치, 중앙값)
변산성 측정치 (분산, 표준편차, 범위, 사분위간 범위)
상관분석
공분산
상관계수
상관계수의 통계적 검증
유의할 점
회귀분석
회귀분석이란 무엇인가?
회귀분석의 사전 진단
회귀분석 실시하기
절편의 고정
다중공선성
잔차분석
평균비교: t 검증
t 검증
독립표본 t 검증
t 검증 결과 보고
대응표본 t 검증
평균비교: 일원분산분석(one-way ANOVA)
분산분석
일원분산분석
일원분산분석의 가정 확인
사후분석
일원분산분석 결과 보고
평균비교: 다원분산분석(n-way ANOVA)
다원분산분석
이원분산분석
비균형자료의 이원분산분석
이원분산분석 결과 보고
비율비교: 카이제곱 검증
카이제곱 검증