상호작용 :: 통계 - mindscale
Skip to content

상호작용

회귀분석에서는 독립변수의 어떤 곱로 이루어진 항을 상호작용 항(interaction term)이라고 부릅니다. 예를 들면은 이렇게 독립변수가 $x$와 $m$이 있는데 $xm$을 모형에 추가하면 이것을 상호작용 항이라고 합니다.

관계식에서 쓸 때는 x:m이라고 쓰시면 됩니다. 좀 특이하게도 x*m이라고 쓰면 x + m + x:m이라고 쓴 것과 같은 의미가 됩니다.

상호작용 항의 의미를 좀 쉽게 이해하기 위해서 간단한 예시를 들어보도록 하겠습니다. 예를 들어서 $x$는 연속형 변수이고 $m$은 0하고 1만 갖는 범주형 변수라고 하겠습니다. 반드시 이래야 하는 것은 아닙니다만, 이해를 돕기 위해서 단순화시킨 것입니다.

그러면 아래 식을 봅시다.

$$ \begin{align} y &= a + bm + cx \ &= \begin{cases} a &+ cx & (m = 0) \\ (a + b) &+ cx & (m = 1) \end{cases} \end{align} $$

이것을 $x$를 중심으로 해석하면 $m$에 따라서 절편이 $a$에서 $a + b$로 바뀐다고 해석할 수 있습니다. 즉, $m$의 계수 $b$는 절편의 차이로 해석할 수 있습니다.

d1 = pd.read_excel('diff_intercept.xlsx')
m = ols('y ~ x + m', d1).fit()
d1 = readxl.read_excel('diff_intercept.xlsx')
m = lm(y ~ x + m, d1)

Question

x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + m으로 회귀분석하면 이때 m의 기울기의 해석이 될 수 있는 것은?

  • y와 x의 관계에서 m에 따라 달라지는 기울기
  • y와 x의 관계에서 m에 따라 달라지는 절편

그러면 이번에는 상호작용 항이 있는 경우를 봅시다.

$$ \begin{align} y &= a + bmx + cx \ &= \begin{cases} a &+ cx & (m = 0) \\ a &+ (b + c)x & (m = 1) \end{cases} \end{align} $$

역시 $x$를 중심으로 해석하면 $m$에 따라서 기울기가 $c$에서 $b + c$로 바뀐다고 해석할 수 있습니다. 즉, 상호작용항 $mx$의 계수 $b$는 기울기 차이로 해석할 수 있습니다.

d2 = pd.read_excel('diff_slope.xlsx')
m = ols('y ~ x + x:m', d2).fit()
d2 = readxl.read_excel('diff_slope.xlsx')
m = lm(y ~ x + x:m, d2)

Question

x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + x:m으로 회귀분석하면 이때 x:m의 계수는 무엇을 의미하는 것으로 해석할 수 있습니까?

  • y와 x의 관계에서 m에 따라 달라지는 기울기
  • y와 x의 관계에서 m에 따라 달라지는 절편

위의 두 가지를 다 합치면 아래처럼 됩니다.

$$ \begin{align} y &= a + bm + cmx + dx \ &= \begin{cases} a &+ dx & (m = 0) \\ (a + b) &+ (c + d)x & (m = 1) \end{cases} \end{align} $$

d3 = pd.read_excel('interaction.xlsx')
m = ols('y ~ x + m + x:m', d3).fit()
또는
m = ols('y ~ x*m', d3).fit()

d3 = readxl.read_excel('diff_slope.xlsx')
m = lm(y ~ x + m + x:m, d3)

또는

m = lm(y ~ x*m, d3)

Question

x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + x:m + m으로 회귀분석하면 이때 m의 계수는 무엇을 의미하는 것으로 해석할 수 있습니까?

  • y와 x의 관계에서 m에 따라 달라지는 기울기
  • y와 x의 관계에서 m에 따라 달라지는 절편

Question

x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + x:m + m으로 회귀분석하면 이때 x:m의 계수는 무엇을 의미하는 것으로 해석할 수 있습니까?

  • y와 x의 관계에서 m에 따라 달라지는 기울기
  • y와 x의 관계에서 m에 따라 달라지는 절편

Question

거짓말대회 데이터를 다운받아 회귀분석을 해보세요. 대회 순위(Position)를 종속변수로 하고 창의성(Creativity)과 초보 여부(Novice)를 독립변수로 하여 회귀분석을 해보세요. 이때 상호작용을 포함시켜 분석하십시오.

(01) 상호작용을 고려했을 때 경험자(Novice == 0)는 창의성의 기울기가 얼마입니까?

(02) 상호작용을 고려했을 때 초보자(Novice == 1)는 창의성의 기울기가 얼마입니까?

(03) 상호작용의 신뢰구간(또는 p-value)를 참고할 때 경험자와 초보자 중 누가 창의성에 따라 대회 순위가 많이 변합니까?

  • 경험자
  • 초보자
  • 어느 쪽으로 결론 내릴 수 없다

(04) 이 모형은 대회 순위의 분산에서 몇 퍼센트를 설명합니까?