R 기초 통계

R로 하는 기초 통계 분석법


수강중

11. 회귀분석 실시하기

동영상이 없는 텍스트 강의 자료입니다.
  • 회귀분석은 lm 함수를 이용하여 실시함
  • 종속변수 ~ 독립변수의 형태로 모형식을 쓴다. (수학에서는 $y = f(x)$처럼 종속변수를 왼쪽에, 독립변수를 오른쪽에 쓰는 것이 관습)
model = lm(dist ~ speed, data = cars)

결과는 summary 함수로 확인할 수 있다.

summary(model)
Call:
lm(formula = dist ~ speed, data = cars)

Residuals:
    Min      1Q  Median      3Q     Max 
-29.069  -9.525  -2.272   9.215  43.201 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -17.5791     6.7584  -2.601   0.0123 *  
speed         3.9324     0.4155   9.464 1.49e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.38 on 48 degrees of freedom
Multiple R-squared:  0.6511,	Adjusted R-squared:  0.6438 
F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

잔차(Residuals)

Residuals:
    Min      1Q  Median      3Q     Max 
-29.069  -9.525  -2.272   9.215  43.201

잔차는 예측값과 실제값의 차이를 나타낸다.

잔차의 최솟값(Min), 사분위수(1Q, Median, 3Q), 최댓값(Max)을 보여준다.

중앙값(median)이 0에 가깝고, 1사분위 점수(Q1)와 3사분위 점수(Q3)가 거의 대칭을 이루고 있으므로, 잔차가 정규분포에서 거의 벗어나지 않았다고 볼 수 있다.

상세한 분석은 뒤에 이어서 실시한다.

회귀계수(Coefficients)

Coefficients:
            Estimate                    Pr(>|t|)    
(Intercept) -17.5791                      0.0123    
speed         3.9324                    1.49e-12

Estimate는 데이터로부터 얻은 계수의 추정치(estimate)를 말한다.

절편(Intercept)의 추정치는 -17.5791로, speed가 0일 때 dist의 값이다.

speed의 계수 추정치는 3.9324로 speed가 1 증가할 때마다 dist가 3.9324 증가한다는 것을 의미한다.

이를 수식으로 정리하면 아래와 같다.

$$ dist = -17.5791 + 3.9324 \times speed $$

추정치의 오른쪽 끝의 Pr(>|t|)는 모집단에서 계수가 0일 때, 현재와 같은 크기의 표본에서 이러한 계수가 추정될 확률인 p값을 나타낸다. 이 확률이 매우 작다는 것은, 모집단에서 speed의 계수가 정확히 3.9324는 아니더라도 현재의 표본과 비슷하게 0보다 큰 어떤 범위에 있을 가능성이 높다는 것을 의미한다. 보통 5%와 같은 유의수준을 정하여 p값이 그보다 작으면(p < 0.05), "통계적으로 유의미하다"라고 한다.

즉, speed가 증가할 때 기대되는 dist의 변화는 유의수준 5%에서 통계적으로 유의미하다.

모형적합도

Multiple R-squared:  0.6511,    Adjusted R-squared:  0.6438 
F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

Multiple R-squared, Adjusted R-squared, F-statistic, p-value는 모형이 데이터에 잘 맞는 정도를 보여주는 지표들이다.

  • Multiple R-squared: 0.6511

    • 모형 적합도(혹은 설명력)
    • dist의 분산을 speed가 약 65%를 설명한다
    • 각 사례마다 dist에 차이가 있다.
  • Adjusted R-squared: 0.6438

    • 독립변수가 여러 개인 다중회귀분석에서 사용
    • 독립변수의 개수와 표본의 크기를 고려하여 R-squared를 보정
    • 서로 다른 모형을 비교할 때는 이 지표가 높은 쪽은 선택한다
  • F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12

    • 회귀모형에 대한 (통계적) 유의미성 검증 결과, 유의미함 (p < 0.05)
    • 즉, 이 모형은 주어진 표본 뿐 아니라 모집단에서도 의미있는 모형이라 할 수 있음

결과 보고

논문 등에서 회귀분석의 결과는 다음 순서대로 보고한다.

먼저 모형적합도를 보고한다. F 분포의 파라미터 2개와 그 때의 F 값, p-value와 유의수준의 비교를 적시한다.

dist에 대하여 speed로 예측하는 회귀분석을 실시한 결과, 이 회귀모형은 통계적으로 유의미하였다(F(1,48) = 89.57, p < 0.05).

다음으로 독립변수에 대해 보고한다.

speed의 회귀계수는 3.9324로, dist에 대하여 유의미한 예측변인인 것으로 나타났다(t(48) = 9.464, p < 0.05).