상호작용
회귀분석에서는 독립변수의 어떤 곱로 이루어진 항을 상호작용 항(interaction term)이라고 부릅니다. 예를 들면은 이렇게 독립변수가 $x$와 $m$이 있는데 $xm$을 모형에 추가하면 이것을 상호작용 항이라고 합니다.
관계식에서 쓸 때는 x:m
이라고 쓰시면 됩니다. 좀 특이하게도 x*m
이라고 쓰면 x + m + x:m
이라고 쓴 것과 같은 의미가 됩니다.
상호작용 항의 의미를 좀 쉽게 이해하기 위해서 간단한 예시를 들어보도록 하겠습니다. 예를 들어서 $x$는 연속형 변수이고 $m$은 0하고 1만 갖는 범주형 변수라고 하겠습니다. 반드시 이래야 하는 것은 아닙니다만, 이해를 돕기 위해서 단순화시킨 것입니다.
그러면 아래 식을 봅시다.
$$ \begin{align} y &= a + bm + cx \ &= \begin{cases} a &+ cx & (m = 0) \\ (a + b) &+ cx & (m = 1) \end{cases} \end{align} $$
이것을 $x$를 중심으로 해석하면 $m$에 따라서 절편이 $a$에서 $a + b$로 바뀐다고 해석할 수 있습니다. 즉, $m$의 계수 $b$는 절편의 차이로 해석할 수 있습니다.
d1 = pd.read_excel('diff_intercept.xlsx')
m = ols('y ~ x + m', d1).fit()
d1 = readxl.read_excel('diff_intercept.xlsx')
m = lm(y ~ x + m, d1)
Question
x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + m
으로 회귀분석하면 이때 m의 기울기의 해석이 될 수 있는 것은?
- y와 x의 관계에서 m에 따라 달라지는 기울기
- y와 x의 관계에서 m에 따라 달라지는 절편
그러면 이번에는 상호작용 항이 있는 경우를 봅시다.
$$ \begin{align} y &= a + bmx + cx \ &= \begin{cases} a &+ cx & (m = 0) \\ a &+ (b + c)x & (m = 1) \end{cases} \end{align} $$
역시 $x$를 중심으로 해석하면 $m$에 따라서 기울기가 $c$에서 $b + c$로 바뀐다고 해석할 수 있습니다. 즉, 상호작용항 $mx$의 계수 $b$는 기울기 차이로 해석할 수 있습니다.
d2 = pd.read_excel('diff_slope.xlsx')
m = ols('y ~ x + x:m', d2).fit()
d2 = readxl.read_excel('diff_slope.xlsx')
m = lm(y ~ x + x:m, d2)
Question
x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + x:m
으로 회귀분석하면 이때 x:m
의 계수는 무엇을 의미하는 것으로 해석할 수 있습니까?
- y와 x의 관계에서 m에 따라 달라지는 기울기
- y와 x의 관계에서 m에 따라 달라지는 절편
위의 두 가지를 다 합치면 아래처럼 됩니다.
$$ \begin{align} y &= a + bm + cmx + dx \ &= \begin{cases} a &+ dx & (m = 0) \\ (a + b) &+ (c + d)x & (m = 1) \end{cases} \end{align} $$
d3 = pd.read_excel('interaction.xlsx')
m = ols('y ~ x + m + x:m', d3).fit()
m = ols('y ~ x*m', d3).fit()
d3 = readxl.read_excel('diff_slope.xlsx')
m = lm(y ~ x + m + x:m, d3)
또는
m = lm(y ~ x*m, d3)
Question
x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + x:m + m
으로 회귀분석하면 이때 m
의 계수는 무엇을 의미하는 것으로 해석할 수 있습니까?
- y와 x의 관계에서 m에 따라 달라지는 기울기
- y와 x의 관계에서 m에 따라 달라지는 절편
Question
x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + x:m + m
으로 회귀분석하면 이때 x:m
의 계수는 무엇을 의미하는 것으로 해석할 수 있습니까?
- y와 x의 관계에서 m에 따라 달라지는 기울기
- y와 x의 관계에서 m에 따라 달라지는 절편
Question
거짓말대회 데이터를 다운받아 회귀분석을 해보세요.
대회 순위(Position
)를 종속변수로 하고 창의성(Creativity
)과 초보 여부(Novice
)를 독립변수로 하여 회귀분석을 해보세요.
이때 상호작용을 포함시켜 분석하십시오.
(01) 상호작용을 고려했을 때 경험자(Novice == 0
)는 창의성의 기울기가 얼마입니까?
(02) 상호작용을 고려했을 때 초보자(Novice == 1
)는 창의성의 기울기가 얼마입니까?
(03) 상호작용의 신뢰구간(또는 p-value)를 참고할 때 경험자와 초보자 중 누가 창의성에 따라 대회 순위가 많이 변합니까?
- 경험자
- 초보자
- 어느 쪽으로 결론 내릴 수 없다
(04) 이 모형은 대회 순위의 분산에서 몇 퍼센트를 설명합니까?