logo

[통계] 상호작용

회귀분석에서는 독립변수의 어떤 곱로 이루어진 항을 상호작용 항(interaction term)이라고 부릅니다. 예를 들면은 이렇게 독립변수가 이 있는데 을 모형에 추가하면 이것을 상호작용 항이라고 합니다.

관계식에서 쓸 때는 x:m이라고 쓰시면 됩니다. 좀 특이하게도 x*m이라고 쓰면 x + m + x:m이라고 쓴 것과 같은 의미가 됩니다.

상호작용 항의 의미를 좀 쉽게 이해하기 위해서 간단한 예시를 들어보도록 하겠습니다. 예를 들어서 는 연속형 변수이고 은 0하고 1만 갖는 범주형 변수라고 하겠습니다. 반드시 이래야 하는 것은 아닙니다만, 이해를 돕기 위해서 단순화시킨 것입니다.

그러면 아래 식을 봅시다.

이것을 를 중심으로 해석하면 에 따라서 절편이 에서 로 바뀐다고 해석할 수 있습니다. 즉, 의 계수 는 절편의 차이로 해석할 수 있습니다.

=== "Python"

d1 = pd.read_excel('diff_intercept.xlsx')
m = ols('y ~ x + m', d1).fit()

=== "R"

d1 = readxl.read_excel('diff_intercept.xlsx')
m = lm(y ~ x + m, d1)

!!! question x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + m으로 회귀분석하면 이때 m의 기울기의 해석이 될 수 있는 것은?

  • y와 x의 관계에서 m에 따라 달라지는 기울기
  • y와 x의 관계에서 m에 따라 달라지는 절편

그러면 이번에는 상호작용 항이 있는 경우를 봅시다.

역시 를 중심으로 해석하면 에 따라서 기울기가 에서 로 바뀐다고 해석할 수 있습니다. 즉, 상호작용항 의 계수 는 기울기 차이로 해석할 수 있습니다.

=== "Python"

d2 = pd.read_excel('diff_slope.xlsx')
m = ols('y ~ x + x:m', d2).fit()

=== "R"

d2 = readxl.read_excel('diff_slope.xlsx')
m = lm(y ~ x + x:m, d2)

!!! question x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + x:m으로 회귀분석하면 이때 x:m의 계수는 무엇을 의미하는 것으로 해석할 수 있습니까?

  • y와 x의 관계에서 m에 따라 달라지는 기울기
  • y와 x의 관계에서 m에 따라 달라지는 절편

위의 두 가지를 다 합치면 아래처럼 됩니다.

=== "Python"

d3 = pd.read_excel('interaction.xlsx')
m = ols('y ~ x + m + x:m', d3).fit()

또는

m = ols('y ~ x*m', d3).fit()

=== "R"

d3 = readxl.read_excel('diff_slope.xlsx')
m = lm(y ~ x + m + x:m, d3)

또는

m = lm(y ~ x*m, d3)

!!! question x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + x:m + m으로 회귀분석하면 이때 m의 계수는 무엇을 의미하는 것으로 해석할 수 있습니까?

  • y와 x의 관계에서 m에 따라 달라지는 기울기
  • y와 x의 관계에서 m에 따라 달라지는 절편

!!! question x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 할 때 관계식 y ~ x + x:m + m으로 회귀분석하면 이때 x:m의 계수는 무엇을 의미하는 것으로 해석할 수 있습니까?

  • y와 x의 관계에서 m에 따라 달라지는 기울기
  • y와 x의 관계에서 m에 따라 달라지는 절편

!!! question 거짓말대회 데이터를 다운받아 회귀분석을 해보세요. 대회 순위(Position)를 종속변수로 하고 창의성(Creativity)과 초보 여부(Novice)를 독립변수로 하여 회귀분석을 해보세요. 이때 상호작용을 포함시켜 분석하십시오.

(01) 상호작용을 고려했을 때 경험자(Novice == 0)는 창의성의 기울기가 얼마입니까?

(02) 상호작용을 고려했을 때 초보자(Novice == 1)는 창의성의 기울기가 얼마입니까?

(03) 상호작용의 신뢰구간(또는 p-value)를 참고할 때 경험자와 초보자 중 누가 창의성에 따라 대회 순위가 많이 변합니까?

  • 경험자
  • 초보자
  • 어느 쪽으로 결론 내릴 수 없다

(04) 이 모형은 대회 순위의 분산에서 몇 퍼센트를 설명합니까?

Next
통계