Skip to content

다중회귀분석

다중회귀분석

다중회귀분석

독립변수가 2개 이상인 회귀분석

관계식에서 +로 변수를 구분

m = ols('price ~ mileage + year', df).fit()
m.summary()
m = lm(price ~ mileage + year, df)
summary(m)

통계적 통제

독립변수 x와 상관관계가 높은 요소 z가 존재할 경우

z가 종속변수 y에 미치는 영향이 x의 기울기에 간접 반영될 수 있음

실험적 통제: 데이터에서 z를 일정하게 유지하여, z의 영향을 제거

통계적 통제: z를 모형에 독립변수로 함께 포함하여, x의 기울기에 z의 영향이 간접 반영되지 않도록 함

표준화

다중회귀분석에서 독립변수는 단위가 다르므로 종속변수에 대한 영향력을 비교하기 어려움

표준화:

$$ \frac{X - \text{평균}}{\text{표준편차}} $$

표준화를 하면 평균 = 0, 표준편차 = 1이 됨

표준화를 통해 변수의 단위를 제거하여 상대적인 영향력을 비교할 수 있음

m = ols('price ~ scale(mileage) + scale(year)', df).fit()
m.summary()
m = lm(price ~ scale(mileage) + scale(year), df)
summary(m)

Question

안전도 데이터를 다운받아 risk를 종속변수로, length, horsepower, city_mpg, doors을 독립변수로 회귀분석을 해보세요.

(01) 위의 회귀분석에서 horsepower의 기울기는 얼마입니까?

(02) 위의 회귀분석에서 doors에서 twofour의 위험도 차이는 어떻습니까? 해석해보십시오.

(03) 위의 회귀분석에 따르면 length=176.6, horsepower=102, city_mpg=24, doors=four인 차량의 위험도는 몇 점입니까?

(04) 위의 회귀분석을 모형 1이라고 할 때, 모형 1에서 horsepower를 제외한 모형 2를으로 만들어 분석해보십시오. 두 모형을 비교할 때 어떤 모형이 더 낫습니까?

  • 모형 1
  • 모형 2
  • 차이가 없다
  • 알 수 없다

Question

(01) 중고차 데이터에서 데이터에 존재하는 모든 변수들을 독립변수로 투입하여 price를 예측하는 회귀분석을 실시하세요. 이 모형은 price의 분산에서 몇 %를 설명합니까?

(02) 위의 회귀분석에서 mileage의 기울기는 얼마입니까?

(03) 위의 회귀분석에서 아반떼와 K3의 가격 차이는 어떻습니까? 해석해보십시오.

(04) 위의 회귀분석에 따르면 주행거리 10만 Km이고 자차 피해액(my_car_damage)이 20만원, 상대차 피해액(other_car_damage)가 100만원인 2012년형 아반떼 가격은 얼마로 예측됩니까?

Question

(01) birthsmokers.xlsx를 다운받아 열어보세요.

변수 Wgt는 신생아 체중(g), Gest는 임신 기간(주), Smoke는 산모의 흡연 여부를 나타냅니다.

신생아 체중을 종속 변수로 하고, 임신 기간과 흡연 여부를 독립변수로 다중회귀분석을 하려면 관계식을 어떻 세워야 합니까?

  • Wgt ~ Gest + Smoke
  • Gest + Smoke ~ Wgt

(02) 신생아 체중을 종속 변수로 하고, 임신 기간과 흡연 여부를 독립변수로 다중회귀분석을 해보세요.

이 분석에서 Gest의 기울기는 무엇입니까?

(03) Gest의 기울기의 p-value는 .05보다 작습니까??

  • 작다(p < .05)
  • 크다(p > .05)

(04) Gest의 기울기의 95% 신뢰구간은?

(05) 위의 분석 결과를 종합하면 다른 변수가 같을 때 임신기간 Gest가 길어질 수록, 신생아의 체중은 어떻게 된다고 볼 수 있습니까(유의수준 5%)?

  • 늘어난다
  • 줄어든다
  • 결론을 유보한다

(06) 이 분석에서 Smoke 변수의 기준 범주는 무엇입니까?

  • yes
  • no

(07) 산모가 흡연자(Smoke == "yes")인 경우 비흡연자(Smoke == "no")인 경우에 비해 신생아 체중이 얼마나 차이가 납니까?

(08) Smoke[T.yes]의 기울기의 p-value는 .05보다 작습니까?

  • 작다(p < .05)
  • 크다(p > .05)

(09) Smoke의 기울기의 95% 신뢰구간은?

(10) 위의 분석 결과를 종합하면 다른 변수가 같을 때 산모가 흡연자일 경우, 신생아의 체중은 어떻게 된다고 볼 수 있습니까(유의수준 5%)?

  • 늘어난다
  • 줄어든다
  • 결론을 유보한다

(11) 이 분석은 신생아 체중의 분산에서 몇 %를 설명합니까?

Question

(01) iqsize.xlsx를 다운받아 열어보세요.

변수 PIQ는 동작성 지능, Brain은 두뇌의 크기, Height는 키(inch), Weight는 몸무게(pound)를 나타냅니다.

동작성 지능을 종속 변수로, 몸무게와 키를 독립변수로 다중회귀분석을 하려면 관계식을 어떻게 세워야 합니까?

  • PIQ ~ Height + Weight
  • Height + Weight ~ PIQ

(02) 동작성 지능을 종속 변수로, 몸무게 Weight와 키 Height를 독립변수로 하는 모형 1로 다중회귀분석을 해보세요. Height의 기울기는 p-value가 .05보다 작습니까?

  • 작다(p < .05)
  • 크다(p > .05)

(03) 모형 1에 두뇌의 크기 Brain을 추가한 모형 2로 다중회귀분석으로 분석해보세요. Height의 기울기는 p-value가 .05보다 작습니까?

  • 작다(p < .05)
  • 크다(p > .05)

(04) 모형 1모형 2의 분석 결과를 비교할 때 알 수 있는 사실은?

  • Brain의 통계적 통제 여부에 따라 Height의 기울기에 대한 분석 결과가 달라질 수 있다
  • Height의 기울기는 다른 변수와는 무관한 영원불멸한 우주와 인생에 대한 궁극적 정답이다

(05) 모형 2에서 Brain의 기울기는 얼마입니까?

(06) Brain의 p-value는 .05보다 작습니까?

  • 작다(p < .05)
  • 크다(p > .05)

(07) 다른 변수가 같을 때, 두뇌가 클 수록 동작성 지능은 어떻게 된다고 결론내릴 수 있습니까(유의수준 5%)?

  • 높아진다
  • 낮아진다
  • 결론을 유보한다

(08) 모형 2에서 Height의 기울기는 얼마입니까?

(09) Height의 기울기의 95% 신뢰구간은 얼마입니까?

(10) 다른 변수가 같을 때, 키가 클 수록 동작성 지능은 어떻게 된다고 결론내릴 수 있습니까(유의수준 5%)?

  • 높아진다
  • 낮아진다
  • 결론을 유보한다

(11) 모형 2에서 Weight의 기울기는 얼마입니까?

(12) 다른 변수가 같을 때, 몸무게가 무거워질 수록 동작성 지능은 어떻게 된다고 결론내릴 수 있습니까(유의수준 5%)?

  • 높아진다
  • 낮아진다
  • 결론을 유보한다

Question

선형 회귀분석에 대한 설명으로 잘못된 것은?

  • 연속인 종속변수를 예측한다
  • y = wx + b 형태의 식을 사용한다
  • 기울기는 독립변수가 1 증가할 때 종속변수의 변화이다
  • 잔차제곱합을 최대로 하는 기울기와 절편을 찾는다

Question

R제곱에 대한 설명으로 잘못된 것은?

  • 모형이 종속변수의 분산을 설명하는 비율이다
  • 예측이 얼마나 정확한가를 나타낸다
  • 독립변수의 개수가 다른 모형을 비교할 때 사용할 수 있다
  • 보통 0~1 사이이며 클 수록 좋다

Question

모형 비교를 위해 보정한 적합도 지수가 아닌 것은?

  • 로그우도
  • 수정 R제곱
  • AIC
  • BIC

Question

기울기 옆에 표시되는 p-value의 의미는?

  • p < 유의수준이면 신뢰구간이 +에만 있거나 또는 -에만 있다
  • p < 유의수준이면 신뢰구간이 +와 -에 걸쳐 있다

Question

냥이, 멍뭉, 토깽 3개의 범주를 가지는 반려동물 변수로 귀여움을 예측하는 회귀분석을 하였다고 할 때 설명으로 잘못된 것은?

  • 독립변수에 반려동물을 대신해서 더미변수 "반려동물[T.멍뭉]"과 "반려동물[T.토깽]"이 추가될 것이다.
  • 반려동물[T.멍뭉]은 반려동물이 멍뭉일 때 1이고, 이외에는 0일 것이다
  • 반려동물[T.멍뭉]은 멍뭉의 귀여움을 나타낼 것이다
  • 이 회귀분석의 절편은 냥이의 귀여움을 나타낼 것이다

Question

회귀분석에서 p > 유의수준인 독립변수는 모형에서 제외해야 한다

  • 아니오

Question

모형 비교를 위한 적합도 지수가 아닌 것은?

  • R제곱
  • 수정 R제곱
  • AIC
  • BIC

price ~ scale(mileage) + scale(year)에 대한 설명으로 잘못된 것은?

  • mileage와 year를 표준화하여 회귀분석에 투입한다
  • 독립변수 각각의 평균은 모두 0이 된다
  • 독립변수의 상대적 위치 변화에 대한 가격 변화를 알 수 있게 된다
  • mileage와 year가 모두 정규분포를 따른다

Question

단계적 회귀분석은 k개의 변수가 있으면, $2^k$개의 모든 조합을 검토하는 방법이다

  • 아니오

Question

단계적 회귀분석에서 전진 선택과 후진 선택의 결과는 같다

  • 아니오