더미코딩
더미 코딩
범주가 2개인 경우
X의 자리에 범주형을 넣으려면 어떻게 할까?
그래서 만든 방법 중에 하나가 더미코딩이라는 방법 이 아이디어는 뭐냐면 원래 범주형인데 약간 연속형처럼 눈속임을 해서 여기 어떻게 억지로 한번 집어넣어 보자 그래서 이 더미코딩은 약간 억지가 있습니다
그러니까 좀 뭐랄까
원래 넣으면 안 되는 자리에다가 억지로 모양을 바꿔가지고 넣어 보니까 좀 특이하게 넣어요
그래서 조금 이상한 느낌이 들 수도 있는데 취지를 생각을 해보면 우리가 원래는 범주형이니까 더하고 빼고 곱하고 이런 계산을 못 한다고 그거를 하여간 계산을 할 수 있는 형태로 그 모양을 바꿔주는 거예요
그래서 더미코딩은 범주형 면수를 W 곱하기 X 할 때 이 곱하기를 못 하니까 X의 형태를 바꿔주는 거예요
그래서 어떻게 바꿔주느냐 여러 가지 방법이 있는데 더미코딩에서 하는 방법은 이걸 말로 써놓으면 좀 복잡한데 일단 두 개인경우를 봅시다
아반대하고 K3가 있다
그러면 어떻게 하냐면 이걸 수으로 바꾸는데 아반대는 영으로 바꾸고 K는 K3는 일로 바꾸는 그러면 하나는 0이 되고 하나는 1이 되니까 우리가 Y는 WX 플러스 B인데 아반때문에 여기다 0을 대입하면 되고 K3면 여기다 1을 대입하면 되겠지
그럼 계산할 수 있잖아요
영하고 1은 그냥 계산하면 되겠다
그래서 범주가 두 개인경우는 이렇게 바꾼다
그러면 여러분들 아니 왜 하필 영하고 1입니까?
별 이유는 없어요
다른 걸로 해도 됩니다
일단 마이너스라고 플러스 1 이렇게 해도 돼요
아니면 나는 이거 하나는 100으로 하고 하나는 200으로 하겠다
그래도 돼
근데 여러 가지를 해보니까 이것도 해보고 이것도 해보고 여러 가지 해보니까 영하고 1을 대입할 때가 제일 해석이 깔끔하거든요
그래서 보통 이걸 대입하는 거예요
이걸 대입해도 되는데 이런 게 대입하는 것도 있어요
영하고 1을 대입하면 더미코딩이라고 하고 이렇게 대입하는 거는 심플코딩이라고요
이름이 뭐 있어요
그래서 이거 말고도 한 10명까지 있거든요
흔히 쓰는 게 근데 다 약간 이상해요
이렇게 대입해도 되고 이렇게 대입해도 되는데 예측이라는 측면에서 보면 어떻게 대입해도 상관없는데 이렇게 대입하는 게 해석하기가 좀 낫습니다 해석하기가 좀 깔끔하겠대요
그래서 이 방법을 쓰는...
여러분이 좋은 아이디어 있으면 반대로 대입해도 됩니다
다르게 되는...
제일 많이 하는 거는 하나는 0, 하나는 1 그래서 우리가 이제 맨날 분석하고 있는 중고차 데이터 그래서...
백이 분석을 해보면 가격을 예측을 하는데 모델을 가지고 예측을 하겠다
또 데이터를 보시면 모델은 K3, 아반대 이렇게 범주형 변수가거든요
글자로 그걸로 예측을 하겠다
분석을 해보면 여기 이제 모델 한 다음에 뒤에다가 K3라고 단서를 붙여놨습니다
그냥 우리가 연식 같은 걸로 하면은 그냥 연식은 지금 숫자로 돼 있으니까 그냥 그대로 들어가요
숫자가 그대로 들어가는데 특별한 변환이 없습니다
모델은...
이게 숫자가 아니기 때문에 숙아 아니기 때문에 수로 변환이 돼서 들어가요
그래서 변환이 돼서 들어갈 때 뭐라고 나오냐면 K3 이렇게 단서가 붙습니다
그건 뭐냐면 K3를 내가 1로 했다
이런 의미에요
아반대는 0으로 했겠죠
하나가 1이면 다다
한 이거 채팅차에 붙여놓을 때 자, 그래서 이거 한번 따라 해보세요 그러면 이거 해석이 어떻게 되느냐 해석은 좀 이따 같이 해보죠
일단 여기 돌려보고 다 돌려보신 분들은 해석을 한번 생각해보세요
다 해보셨나요?
그래서 여기 기울기를 식을 보면은 여기 절편이 833이고 기울기가 80이고 이거를 수식으로 쓰면은 약간 이게 표가 밀렸네 쓰면은 833 더하기 80, 833, 833 인데 그냥 모델이 아니라 K3를 1로 입력한 모델이 가격에 그래서 여기다 대입을 해보면 아반대인 경우에는 아반대 가격은 여기다가 아반대는 0을 대입합니다
왜 0을 대입하냐면 그냥 그렇게 하기로 했어요
우리가 사회적 약속입니다
그래서 89 파기 0하면 얼마야?
0이죠
그러면은 833 더하기 89 파기 0 하면은 그냥 이거는 없는 거니까 가격은 833만 원 그래서 아반대의 예상 가격은 833만 원 그럼 K3의 예상 가격은 어떻게 되느냐?
833 더하기 80, 9 파기 1입니다
80, 9 파기 1은 80이죠
그러면 833에다가 80만 원 더하니까 913만 원 그래서 아반대 예상 가격은 13만 원 그러면은 이제 절편하고 기울기에 해석이 어떻게 되느냐면 절편은 그냥 아반대 가격이 돼요
아반대의 평균 가격 절편의 의미는 아반대의 평균 가격 기울기에 의미는 K3의 평균 가격이 아니고 K3의 K3가 얼마나 더 비싼가?
왜냐하면은 833만 원이 아반대 가격인데 여기에서 플러스 80하면은 K3 가격이 되니까 이 기울기는 K3가 아반대보다 얼마나 더 비싸냐
그래서 이거를 다르게 거의 보면은 모델별로 그루핑을 해가지고 가격의 평균을 구해 보면은 우리가 방금 얘기했던 거랑 똑같아요
아반대가 833 K3가 913 80만 원 차이 나죠
80만 원 차 80.39 이렇게 되는데 이거랑 똑같죠
이 기울기가 의미하는 거는 두 개의 가격 차이예요
그리고 이거는 아반대의 가격이 그래서 지금 보면은 아반대를 기준으로 K3가 얼마나 더 비싸냐
이런 식의 분석이 되기 때문에 회기 분석에서 우리가 이제 더미 코딩을 할 때 영으로 지정하는 검주를 기준 검주라고 합니다
영어로는 레퍼런스 그래서 약간 헷갈릴 수 있는데 왜냐하면 여기 K3라고 표시되어 있는데 기준을 아반대로 해요
왜냐하면은 아반대보다 K3가 얼마나 더 비싸냐
이런 식의 분석이 되기 때문에 아반대를 기준으로 해서 K3가 얼마나 플러스냐 이거를 나타내
아반대를 레퍼런스로 했을 때가 얼마나 더 비싸냐
이거를 그림으로 다시 그려서 보면은 어떻게 되냐면 지금 아반대가 어떤 모델이 있는데 아반대가 0이고 K3가 1이 되거든요
그럼 Y축이 이렇게 이렇게 그러면은 여기 833만 원이 아반대 가격이고 K3가 913만 원 직선을 그리면 이렇게 되요
그러면은 기울기라는 거는 이 밑변분의 높인데 높이가 80만 원 차이 나고 밑변은 여기가 0이고 여기가 1이니까 1이 됩니다
밑변분의 높이 하면 80만 원 더미코딩은 숫자를 왜 이렇게 집어넣느냐
하면은 이렇게 넣어야 절편이랑 기울기가 좀 쉽게 해석이 되는 거죠
절편은 아반대 가격이고 기울기는 여기 얼마죠
다른 숫자를 집어넣어도 되는데 다른 숫자를 넣으면 이게 해석이 묘어하게 됩니다
왜냐하면 예를 들면은 아반대는 마이너스 1을 넣고 K3는 플러스 1을 넣으면 아반대 평균 가격은 W-B가 되고 아 아니고 마이너스 W 플러스 2 K3 평균 가격은 플러스 W 더하게 B가 되거든요
B는 뭐냐
약간 이상하게 돼요
아반대는 마이너스 1이고 K3는 플러스 1이니까 가격이 여기 833만 원 913만 원 되는데 그럼 이렇게 지나면서 중간쯤을 지나겠죠
저는 한 873만 원을 지나갈 겁니다
뭐 873만 원은 아반대 가격도 아니고 K3 가격도 아니잖아요
뭐 굳이 말하면 아반대와 K3의 평균 가격 정도 되겠죠
이 W는 그거보다 K3가 얼마나 비싸냐
이거는 아반대가 그거보다 얼마나 싸느냐
이런 건데 이 심플 코딩도 하기는 합니다
왜냐하면 전체 평균의 대비해서 아반대랑 K3는 그거보다 얼마나 높냐는 의미가 되니까 그것도 할 수는 있는데 약간 해석이 좀 미묘해요
그래서 더미코딩을 더 많이 하는 더미코딩 하면 확실하게 한쪽은 아반대로 고정을 해놓고 그거보다 K3가 얼마나 더 비싸요
그래서 우리가 요구를 한번 써보면 지금 가격은 식은 가격은 833, 880, 880, 모델 K3 833만 원의 의미는 아반대의 평균 가격 80의 의미는 절편 833 유리 833은 K3의 가격이 얼마나 비싼가를 나타내겠습니다
그러면 여기서 가설 검정을 할 수가 있죠
이 P벨류 옆에 보시면 P벨류가 0.082예요
그러
면 우리가 이제 기울기에 대한 회기 분석할 때 아침에 기울기는 0이다 를 규모가설로 한다고 했죠
기울기가 0이면 뭡니까
하도 안 비싸는데?
똑같은데?
이런 얘기가 되죠
아반대와 K3의 평균 가격 같다 1도 안 비싸다
이런 얘기가 됩니다
규모가서를 똑같다
기울기가 0이니까는 아반대도 833, K3도 833 이렇게 된다
근데 우리가 지금 P벨류를 보면 P벨류가 얼마이냐면 0.082예요
우리 기무�가설 기각하려면 얼마 보다 밑으로 가야 됩니까
0.05보다 밑으로 가야 되는데 지금 0.05보다 위면다 그러니까 어떻게 되냐면 이 기무�가설은 기각을 못 해요
그래서 아반대랑 K3가 차이가 난다
라는 기무�가설은 기각을 할 수가 우리가 이 회기 분석의 결과로 보면 아반대랑 K3는 우리가 차이가 난다고 결론질 수가 일보하게 여기까지 잘 이해 되시나요?
m = ols('price ~ model', df).fit()
m.summary()
m = lm(price ~ model, df)
summary(m)
Question
범주형 변수 pet
을 회귀분석에 투입하려고 합니다. pet
에는 dog
와 cat
, 두 종류의 범주가 있습니다. 이때 더미코딩을 한다면 기준범주는 무엇이 됩니까?
- dog
- cat
- 알 수 없음
위의 경우 회귀분석에 실제 투입되는 더미 변수는 모두 몇 개입니까?
- 0개
- 1개
- 2개
- 3개
위의 경우 회귀분석에서 다른 독립변수가 없을 때 절편(intercept)은 무엇을 의미합니까?
- dog의 예측값
- cat의 예측값
- dog의 예측값과 cat의 예측값의 차이
위의 경우 회귀분석에서 다른 독립변수가 없을 때 더미변수의 기울기는 무엇을 의미합니까?
- dog의 예측값
- cat의 예측값
- dog의 예측값과 cat의 예측값의 차이
Question
안전도 데이터를 다운받아 risk
를 종속변수로,
fuel
를 독립변수로 회귀분석을 해보세요.
(01) fuel
의 범주는 모두 몇 개입니까?
(02) fuel
의 더미변수는 모두 몇 개입니까?
(03) 기준이 되는 범주는 무엇입니까?
(04) diesel은 gasolin에 비해 모집단에서 위험도가 어떻습니까? (유의수준 5%)
- gas가 diesel보다 낮다
- gas가 diesel보다 높다
- gas와 diesel의 위험도는 같다z
- 결론 내릴 수 없다
회귀분석과 t 검정
그러면 여기서 신기한 게 하나 있는데 뭐냐면 우리가 이거 아반대하고 K3 가격 비교하는 거 여러 번 했었거든요
T 테스트에서 했었죠
그래서 아반대랑 K3를 가격을 나눠서 아반대 가격하고 K3 가격 비교를 해보면 여기서는 차이가 난다고 했단 말이에요
T 검정할 때 이때는 차이가 난다더니 이때는 왜 차이가 안 난다고 하냐
이거는 검정하는 방법의 차이 때문인데 사실은 이 T 테스트 함수가 자동으로 해주는 게 있습니다
제가 여러분들한테는 말하지 않았지만 숨겨진 기능이 있거든요
뭐가 숨겨진 기능이냐면 코렉션 이게 자동으로 수정하는 건 이거를 펄스로 해가지고 이걸 꺼보면 여기 P베류가 0.08이죠
여기서도 0.08이죠
똑같습니다
그럼 이거는 코렉션은 펄스하면 이거 뭐 하는 거냐
우리가 분산분석할 때 항상 등분산성 검정을 먼저 해가지고 등분산성 검정 결과에 따라서 분산분석 계산하는 방식이 달라진다
이런 얘기를 했었죠
사실은 T 검정도 원래는 등분산성 검정을 먼저 하고 그 결과에 따라서 계산 방법을 바꿔야 합니다
다르게 계산해야 되는데 왜 여기서는 안 했냐
이거는 희한하게도 자동으로 해줘요
그래서 이 등분산성 검정하면 아, 이렇게 하는 거 아니에요
등분산성 검정하면 얘네가 아반대하고 K3하고 분산이 다르거든요
아반대 분산은 이만큼이고 K3 분산은 이만큼이라서 둘이 분산이 다르기 때문에 원래 자동으로 내부적으로 등분산성 검정해서 이게 기각되니까 자동으로 계산 방식을 바꾭니다 계산 방식을 못 바꾸게 하면 0.08이가 나오는데 그거는 회기 분석에 이거랑 똑같습니다
그래서 여기 보시면 실내구간 나오는데 10에서 171 이렇게 나오잖아요
10에서 171 그래서 회기 분석에서 더미코딩을 하면 T 검정에서 등분산 보정을 분산에 대한 보정을 안 해준 결과가 똑같습니다
그러니까 사실은 회기 분석이나 T 검정이나 사실은 똑같은 분석이에요
이런 점에서 똑같은 분석인데 그냥 회기 분석도 분산에 대한 보정을 할 수 있거든요
근데 이거는 복잡한데 그래서 이게 두 개는 똑같은 거다
T 검정을 하나 회기 분석을 하나 똑같다
근데 차이는 뭐냐면 회기 분석에서 분산에 대한 보정을 하려면 복잡해요
왜냐면 회기 분석은 연속 변수도 할 수 있고 범주형 변수도 할 수 있는 거라서 이것도 되고 저것도 되니까 약간 분산에 대한 보정이 들어가면 복잡해져요
T 검정은 집단에 대한 비교만 할 수 있는 거라서 분산에 대한 보정을 하려면 보기 좀 더 간단한 거죠
그 점을 제외하고 나면 두 개는 똑같습니다
그리고 여기서 하나 또 해보면 우리가 분산 분석을 배웠었죠
아노바 여러 집단의 평균을 비교하고 근데 여기서도 지금 그냥 아노바로 하면 이거는 분산이 다르다는 거를 보정을 안 하는 거거든요
원래는 이렇게 분산이 서로 다를 때는 웰치 아노바를 해야 되는데 보정을 안 하고 돌리면 이때도 피벨류가 0.082로 똑같아요
그러니까 우리가 지금 이 회기 분석도 사실은 분산이 동일하다는 가정이 들어가 있는 거에요
이 T 테스트도 보정을 안 했으니까 코렉션은 빨리 보정하지 말아요 분산이 똑같다는 가정이 분산 분석도 지금 그냥 아노바를 썼으니까 분산이 똑같다는 가정 그럼 분산이 똑같다고 가정하면 피벨류가 뭘로 분석하든지 똑같이 나옵니다
즉 T 테스트 아노바 회기 분석은 다 똑같은 검정 그래서 회기 분석이 어제 제가 얘기 드릴 때 이 얘기를 했었는데 기억나요
회기 분석은 분산 분석보다 더 일반적인 분석 방법이고 분산 분석은 T 검정보다 더 일반적인 분석 방법 T 검정으로 할 수 있는 거는 분산 분석으로도 할 수 있고요
분산 분석으로 할 수 있는 거는 회기 분석으로도 할 수 있어요
반대로 말하면 분산 분석은 회기 분석보다 좀 더 특수한 케이스를 다루는 거고 T 검정은 분산 분석보다 더 특수한 경우를 다루는 거고 아니 회기 분석만 배우면 될 거 아닙니까
뭐 그래도 되는데 특수한 경우에는 T 검정으로 하는 게 조금 낫다
왜냐하면 T 검정은 두 집단 비교 전용이기 때문에 고금만 하니까 고거의 특화된 애죠 분산 분석은 여러 집단 비교하는 건데 그걸로 두 집단 할 수도 있지만 뭐가 좀 약간 나사가 나 빠져 있어요 회기 분석은 집단감 비교도 할 수 있고 연속적인 거 가지고 계산도 할 수 있습니다
다 할 수 있어요
근데 좀 특화가 떨어지는 거에요
그래서 이렇게 얘기하면 아니 그러면 회기 분석은 특화도 안 돼 있는데 그 뭐라고 해요
라고 할 수 있지만 회기 분석은 뭘 할 수 있는 게 장점이냐면 다중으로 할 수 있다는 게 장점이니까 지금 아반대랑 케이스랑 가격 차이가 나는데 분산 분석이나 T 검정에서는 다른 변수를 고려할 수가 없어요
그냥 모델대 모델로만 비교 근데 이제 다중 회기에서는 어떤 걸 할 수 있냐면
좋아
그러면은 주행 거리를 통제를 해보자 주행 거리를 통제하고 아반대 케이스리 가격 차이가 어떻게 된지 보자
이런 거를 할 수 있습니다 주행 거리를 통제해보면 재밌는 거를 알 수 있는 가격 차이가 아까 80만 원 차이 났잖아요
22만 원 차이로 줄어듭니다 주행 거리를 통제하면 아까 80만 원 차이 나던 게 22만 원 차이 나다 그러면은 주행 거리를 통제하지 않았을 때는 케이스리가 아반대보다 80만 원 비쌌죠
근데 통제하면 22만 원만 비쌌요
그 얘기는 뭐냐
케이스리가 시장에서 아반대보다 비싸게 거래되는 이유 중에 하나는 여러 가지가 있겠죠
케이스랑 디자인이 예쁘다든가 이런 게 여러 가지가 있을 수 있는데 그냥 중고차 시장에 케이스리가 좀 주행 거리가 짧은 차가 많이 나와요
실제로 주행 거리의 평균을 비교를 해보면 중고차 시장에 아반대가 훨씬 주행 거리가 긴 차가 많이 나왔습니다
80,000kg가 평균인데 아반대는 케이스리는 70,000kg밖에 안 돼요 케이스리가 차가 좋아서 그런 것도 있겠죠
디자인은 그냥 시장에 나와 있는 케이스리가 좀 더 세 차가 많은 거죠
상태가 더 좋은 그 상태가 더 좋아서 케이스리가 약간 비싸게 거래되는 거지 정말로 케이스리가 아반대보다 좋아서 그런 거는 그래서 이제 이런 식으로 우리가 다중해기를 해가지고 다른 변수를 통제할 수 있다는 거는 해기분석에 분산 분석이나 티검정으로는 못하는 해기분석의 장점이네요
범주형 변수와 연속형 변수를 함께 분석
그리고 한번 다시 한번 잘 좀 이해가 될듯 말듯 하실 텐데 잘 곱씹어보시고 우리는 쉬었다가 10시에 다시 자 가니를 이어서 질문 있으시면 자 그러면 우리가 또 새로운 데이터를 하나 또 BES이라고 합니다
이 데이터를 보면 이제 체중이 있고 신생아 체중 데이터인데 WDT가 신생아의 체중 BESD가 음신기간으로 되잖아요
스모크는 산모의 흡연 여부 그러면 우리가 이제 신생아의 체중을 종속 변수로 해기분석을 했을 때 산모의 흡연 여부를 가지고 비교를 해볼 수 있게 흡연을 하는 산모와 금연이라고 하면 담배를 끊는 거니까 담배를 처음부터 하면 비흡연 비흡연하는 산모가 있으면 두 가지로 분석할 수 있죠
모형 1은 이렇게 분석을 할 수 있습니다 흡연 여부만 가지고 신생아의 체중에 차이가 나는 모형 2는 임신기간을 통제를 했을 때 이거에 따라서 어떻게 달라지는 이렇게 분석을 이거는 한번 실습으로 문제로 한번 이거를 한번 풀어보세요 폼을 올려드리죠
폼 링크 다 푸신 분들은 다 부서졌다
자 이것도 한 1분 더 드릴게요
다 같이 한번 풀어볼까요
그래서 분석을 해보면 흡연 여부를 가지고 여러분들 상식하고 조금 다른 결과가 나오는데 보통 엄마가 담배 푸시면 태한테 안 좋다
안 좋을 순 있는데 체중 측면에서 보면 피벨유가 0.0을 보다 큽니다
이게 해석이 어떻게 되냐면 여기 3,066 지금 여기 S라고 되어 있으니까 노일 때가 여기가 래퍼런스거든요
스모크 노가 0이고 스모크 S가 1인데 이 때가 체중이 3,066이고 그다음에 S면은 오히려 마이너스에요
약간 그래서 3,066이 90인데 이 마이너스 92라는 기울기에 이 피벨류를 보면 피벨류가 0.0보다 크죠
그 얘기는 뭐냐면 우리가 규무 가설은 뭡니까
항상 얘가 0이다
그러니까 후변자랑 기후변자랑 차이가 없다
이건데 그거를 기각을 못 합니다
우리는 규무 가설이 후변자와 차이가 이게 규무 가설인데 피벨류가 0.0보다 커요
그래서 규무 가설을 기각을 못 합니다
후변자와 유견자, 3,0, 생생화, 세종의 차이에 대한 신가도 근데 왜 그렇게 되느냐
이거는 추가적인 분석을 해보면 우리가 왜 이런 결과가 나오는지를 알 수가 있습니다
일단 여러분들은 응답하신 것 같은데 그래서 스모크 면세 기울기에 대한 가설 검정 결과는 그래서 규무 가설은 0이다
이건데 기각을 못 하니까 기각을 못 할 때는 결론을 유보하게 된 이가 0이 아니다
그래서 우리가 모델2로 분석을 해보면 여기다가 GST를 넣어주면 분석을 해보면 여기 스모크가 있는데 여기 인터셉트가 마이너스 2389인데 그거는 융신기간이 들어가 있으니까 우리가 지금 융신기간을 평균을 내보면 평균적으로 한 38조 최대는 42조 최소는 34조 그러니까 이게 이제 공식이 마이너스 2389 그다음에 이거 곱하기 흐변 더하기 143 곱하기 그래서 이제 임신기간이 내다가 0 대입하고 그다음에 흐변 안 한다
그래서 0 대입하면 여기가 이제 절편인데 사실 태아가 세종이 마이너스가 나올 순 없죠
근데 왜 이렇게 나오냐면 애기들이 세종이 늘어날 때 태아들이 이제 세종이 후반부에 많이 늘어나거든요 후반부에는 이렇게 가다가 후반부에 이렇게 늘어난다
왜냐하면 세포가 더블 2배수로 처음에 증가하기 때문에 이렇게 근데 보통 우리가 이제 체중은 태어난 다음에 측정을 하기 때문에 이 상태에서 측정을 한단 말이에요
그러면 여기서 이제 직선을 보면 우리는 이 데이터만 가지고 직선을 보니까 이 원래는 여기서 0에서 시작해야 되는데 마이너스 2000 이런 데에 찍히는 거죠
여기서 이제 괴리가 큰데 사실 별로 괴리가 커서 상관없습니다
왜냐하면 우리는 태어난 다음에 출생 직후에 체중을 재고 싶은 거라서 어차피 수정란 시기에 체중에는 관심이 없으니까 여기서는 차가 좀 나도 괜찮습니다
여기서만 잘 맞으면 돼요
그래서 어쨌든 이 공식을 보면 임신기간이 한 주 늘어날 때마다 태아 신생아 체중이 143g씩 증가하고 그다음에 흡연자와 비흡연자 간에 체중의 차이가 신생아 체중의 차이가 약 244g 정도 가는 거를 볼 수 있습니다
그다음에 여기 이제 피벨류 보면 피벨류가 0.0보다 작죠
그거는 규무가설이 기각이 된다는 얘기입니다
규무가설은 이 기울기가 0이다
이건데 우리가 고거를 기각하는 거예요
그래서 나는 피벨류가 도저히 이해가 안 된다
그런 부분은 여기 실내 구간을 보세요
어제도 얘기 들었지만 이 피벨류라는 거는 사실 현재는 별로 쓸모없는 왜냐하면 실내 구간 보면 되거든요
여기 0이 없잖아요
여기는 아까 앞에 보면 피벨류가 크면 어떻게 되냐면 중간에 0이 여기 들어가 있어요
그러니까 우리는 아, 마이너스 344에서 한 159까지는 다 될 것 같은데 그럼 0도 이 안에 끼어 있죠
0도 되는 0도 배제를 할 수 없단 말이에요
우리가 마이너스부터 플러스까지 다른다고 했으니까 0도 이 사이에 있어서 0도 뭐 되긴 되는 거지
근데 뭐 0이 아닌 것도 있어
이런 게 이제 기각 못 하 그래서 이제 결론을 유구한다는 거예요 0도 되고 플러스 100도 되고 마이너스 100도 되고 마이너스 근데 여기서는 마이너스만 되니까 0은 저 쪽에 있죠
0은 저 바깥에 있습니다
그러니까 0은 택도 없어요
0은 해당상이 없다
0은 아니다
그러니까 마이너스 얼마인 거는 맞다
여기서도 정확히 얼마인지는 모르겠지만 124일 수도 있고 150일 수도 있고 160일 수도 있지만 당연히 0은 아니다
0은 이쪽 왼쪽에 있겠죠
0은 아니다 둘 다 0은 배제할 수가 있습니다
그러니까 기울기가 이거는 마이너스로 얼마 있고 이거는 기울기가 플러스로 얼마일 때까 정확하게 244인지는 모르겠어요
그건 알 수 없죠 마이너스 330일 수도 있습니다
하지만 마이너스인 거는 맞는 거고 이것도 정확하게 플러스 143이냐고 하면 160도 되고 120도 되죠
하지만 어쨌든 플러스로 올라가는 관계다
그러니까 임신 주수가 늘어나면 신생아 체중이 증가하고 흡연을 했으면 흡연을 하면 신생아 체중이 감소하는 거는 맞는 거 그래서 모형 2에서 스모크 변수의 기울기에 대한 가설 검정 결과는 기기가 0은 아니다 약간 0은 배제할 수 있다 기가 그다음에 요거의 가설 검정 결과도 똑같이 0은 아니다
0은 기각 제가 제출하신 걸 보면서 흥미롭다는 생각이 드는데 모형 1에서 결론을 유보했으면 반대 결과가 나와야 되는데 여전히 규무 가설이 뭔가 헷갈리시는 게 아닐까
흠 그래서 이해가 안 되시면 질문을 해주세요
근데 제가 항상 고민되는 부분이 뭐냐면 뭔가 이해가 안 되시는 부분이 있는데 질문을 안 해주시면 여러분들이 어떤 점에서 맡기고 있는지를 제가 모르니까 설명을 해도 뭔가 속시원하게 설명을 드릴 수가 없거든요
뭘 막히 물론 이제 약간 질문을 하려고 해도 내가 뭘 모르겠는지를 모를 때가 있습니다
그러면 약간 질문하기도 좀 뭐 하거든요
그래도 이렇게 질문을 해주시면 질문을 하면서 본인도 이렇게 약간 머릿속으로 정리가 돼요 가능하면 이해 안 되시는 그래서 이제 우리가 이걸 어떻게 분석하냐 했다 어제도 제가 얘기 드렸지만 우리가 어떻게 통제를 하냐에 따라서 어떤 집단 간에 차이가 날 수도 있고 지금 보면 이제 좀 신기한 결과인데 후변 여부를 음식 기간을 통제함에 따라서 후변 여부가 차이가 날 수도 있고 안 할 수도 있어
이게 왜 그러냐
이게 좀 잘 이해가 안 될 수가 있어요
이거를 시각화를 해보면 조금 더 할 수 있습니다
코드 올려드려 드릴게요
이게 모델 1이고 이게 모델 2 이 경우에는 후변자 그래서 이거를 스케터 플러스로 해가지고 X는 색깔은 이렇게 그려보면 지금 보시면 파란색이 그 흡연을 하는 경우 주황색이 흡연을 안 하는 경우 그래
서 이거를 보시면 어떤 특징이 있냐
동일 기간으로 비교해 보면 여러분 눈으로도 좀 보이시겠지만 흡연을 하는 산모들이 신생아 체중이 이렇게 증가하고 흡연을 안 하는 산모는 신생아 체중이 이렇게 증가합니다
비슷하게 증가하는데 보면 이 정도 개위 항상 있어요
같은 임신 기간이면 그 흡연을 하는 산모가 신생아 체중이 조금 더 낫습니다
똑같이 38주에 아기가 나왔다
그러면 보시면은 비후변자가 엄마가 비후변자인 경우에요
엄마가 흡연자인 거보다 신생아 체중이 조금 더 높죠
근데 왜 임신 기간을 무시하면 그 차이가 줄어드냐
여기 보시면 약간 미세하지만 비후변자들은 뭐 이렇게 42주에 나온 경우도 있지만 대체로 약간 그 애기들이 일찍 나와요
한 주 정도 흡연자들은 보시면은 약간 출산 시기가 한 일주일 정도 더 뒤쳐져 있습니다
뒤에 이렇게 그래서 이걸 실제로 평균을 내보면 차이가 나오는 예스 점 그룹 바이 아 평균을 내고 지금 비후변자들은 평균적으로 38주면 출산을 하는데 흡연자들은 평균적으로 39주에 출산을 해요
한 일주일 정도 개위 있는 거죠
그래서 우리가 임신 기간을 통제하지 않으면 비후변자들이 신생아 체중이 조금 작은데 아마도 그거를 생명의 신비라고 할까요
신생아 체중이 작으니까 신생아를 더 키워 가지고 일주일 더 키워서 체중을 불려 가지고 출산하는 거죠 태어난 아기들의 결과적인 몸무게만 보면은 그렇게 차이가 많이 안 나는 거죠
3,066g 대 2,973g 그러니까 거의 한 100g 안쪽으로 차이가 따라 잡히는 거 그래서 임신 기간을 통제하느냐 통제하지 않느냐에 따라서 이 흡연 여부에 따른 차이가 나타날 수도 있고 나타나지 않을 수도 있는 거예요
그래서 방금 했던 얘기를 해 보면 정리해 보면 동일 시점을 기준으로 하면 임신 기간을 통제하느냐에 따라서 그러나 흡연자의 경우 한 주 정도 이뤄지게 결과적으로 결과적으로 그렇다고 해서 이제 뭐 흡연이 신생아 체중에만 영향을 주는 건 아니기 때문에 삽목을 흡연해도 괜찮다
이런 건 아니지만 어떤 부분은 신생아 체중이 부족한 거를 임신 기간을 늘려 가지고 인체가 이제 이걸 보정을 해주는 거죠
그런 현상이 우리가 회기분석을 통해서 이런 것들을 알아낼 수가 있어요
통계가 어렵지만은 통계를 잘 하면 굉장히 이런 것들을 재밌게 알아내줘요
물론 어떤 분은 아 뭘 이렇게 복잡해 차이가 그래서 난다는 거야
난다는 거야
뭐 이렇게 하실 수도 있고 우리가 어떤 현상을 복합적으로 발표할 수가 있는 거 이런 거를 그림으로 그리면 그림으로 그리면 흡연이 있고 체중이 있으면 체중이 마이너스로 기여를 하고 임신 기간은 체중의 플러스로 기여를 하는데 그래서 문제가 뭐냐면은 흡연하고 체중만 가지고 분석을 하면은 여기 숨겨진 관계가 있는 거죠
흡연이 임신 기간을 늘리는 효과가 있어요
그래서 우리가 이거를 아래쪽 단을 포함을 안 하고 분석하면은 원래는 마이너스가 나와야 되는데 이게 플러스 플러스니까 간접적으로 플러스 효과가 있단 말이에요
그래서 마이너스 플러스가 서로 상쇄해를 시켜서 마치 흡연이 체중에 영향을 별로 안 주는 것처럼 인생화체중에 영향을 별로 안 주는 것처럼 돌아갈 수가 있습니다
임신 기간을 통쇄를 해줘야 이 플러스 효과를 따로 떼내가지고 이 마이너스 효과가 그러니까는 이런 것들이 되게 많거든요
범주가 3개 이상인 경우
집단이 3개면 어떻게 되냐
이러면은 좀 복잡해지게 우리 데이터를 하나 또 새로운 걸 보면 이거는 이제 울증 치료할 때 데이터인데 이 데이터를 열어보면은 여기 TRT라는 변수가 있어요
이 변수가 치료 방법입니다
1.
치료제라고 생각합니다
ABC 3가지가 있고 Y는 울증 치료 효과 같은 겁니다
그래서 치료 효과가 56점 이거는 41점 그리고 AG는 뭐 나이죠
그 다음에 X2랑 X3가 있는데 이거는 수동으로 더미코딩 한 겁니다
이거는 무시하셔도 돼요
그러면은 이렇게 범죄가 3개가 있으면 어떻게 되느냐
하나는 0, 하나는 1로 놓으려고 하니까 3개 전에 하나는 1로 놓은다?
그렇게 하지 않고 샤란 방법을 쓰면 희한한데 범죄가 3개면은 변수를 2개를 늘려요 범죄를 2개로 늘리고 이걸 ABC 하면 A가 제일 먼저 나오죠
그래서 A를 레퍼런스로 잡고요 그 다음에 B에 해당되는 변수를 하나 넣고 그래서 TRTB랑 TRTC가 생기는데 원래 범죄가 A다
그러면 그냥 다 0이에요
A 레퍼런스는 기준은 무조건 0입니다
왜냐하면 그래야 우리가 나중에 분석을 하면은 Y는 절편 더하기 그 다음에 B 곱하기 TRTB가 되고 A랑 C 곱하기 C가 될 건데 그러면 A의 치료 효과는 어떻게 되냐
그럼 둘 다 여기 A는 영어를 대입하니까 A만큼 나오게 돼
그럼 B의 치료 효과는 어떻게 되냐
B의 치료 효과는 A랑 6기가 1이니까 B C는 여기 들어가죠
A랑 B가 됐고 C의 치료 효과는 어떻게 되냐
A랑 C랑 그래도 기울기가 말하는 건 항상 뭐냐면 레퍼런스 대비해서 기준 대비해서 얼마나 좋아지냐
이걸 가지고 회기분석을 해보면 지금 62점 이렇게 나오는 게 A의 치료 효과입니다
A가 62점 정도 치료 효과가
있다 수식으로 써보면 Y는 62.333 플러스 minus minus 10 TRTB가 되고 minus 11.0833 TRTC가 돼
그래서 보면 우리가 A로 치료할 경우 A로 치료할 경우에 어떻게 되느냐
이거는 그대로 들어가고요
TRTB는 0이 됩니다
왜냐하면 그렇게 하기로 정했어요
사회적 약속 그다음에 TRTC도 영어로 들어갑니다
A일 때는 둘 다 영어 대입하니까 이거 둘 다 영어로 대입하면 여기는 없는 거죠
그래서 A의 치료 효과는 이것만 남습니다
그래서 절편 62.333이 A의 치료 효과 B의 치료 효과는 어떻게 되냐
B의 치료 효과는 시기 똑같은데 B는 여기다가 1을 집어넣어요
나머지는 0 자기 이름이 붙은 것에만 1이 들어간다
그러면 여기는 0이니까 없는 거죠
없는 거고 그래서 B의 치료 효과는 62.3333 B의 치료 효과는 10.41 이거 계산하시면 51.916 C의 치료 효과는 어떻게 되냐
C의 치료 효과도 똑같이 계산하시면 됩니다
C의 치료 효과는 여기가 0이고 여기가 1이야
자기 이름 붙은 대회를 1로 넣으면 된다고 생각합니다
A는 자기 이름 붙은 게 없으니까 다 영어고 B는 여기가 자기 이름 붙었으니까 여기다 1 넣고 C는 여기가 자기 이름 붙었으니까 그러면 다시 계산한 거죠
여기서 이거는 없는 거니까 그대로 없어지고 여기 꼽하기라면 똑같은 거니까 C의 치료 효과는 51.25가 됩니다
그래서 A가 치료 효과가 좋고 62.25 B랑 C는 치료 효과가 낮은데 51.25 그러면 여기서 기울기 차이를 피벨 류 를 보면 B의 치료 효과가 통계적으로 유의하죠
통계적으로 유의하다는 거는 이게 0은 아니다 똑같지 않다
A랑 똑같지 않다
기울기 보면 둘 다 마이너스야
B는 A보다 치료 효과가 떨어진다
C는 어떻게 되냐
C도 피벨 류가 0.25가 작죠
실내 구간 보시면 더 마이너스입니다
그러니까 이것도 A보다 못하다
그래서 이거는 유의한 차이가 있죠
통계적으로 B가 0.25로 또 통계적으로 유의한 차이라고 B는 치료 효과가 떨어진다
C도 A보다 치료 효과가 여러분이 직접 한 번 숫자를 대입하셔가지고 해석을 해보시고 이게 들었으니까 안 보고 한 번 혼자 해보세요 해본 다음에 다시 이거랑 비교를 해가지고 맞게 나오는데 자 질문 있으시면 지우고 없으시면 10시 50분 약간 쉬었다가 돌아가겠습니다
11시까지 하면 되죠
dp = pd.read_excel('depression.xlsx')
m = ols('y ~ TRT', dp).fit()
m.summary()
dp = readxl.read_excel('depression.xlsx')
m = lm(y ~ TRT, dp)
summary(m)
Question
범주형 변수 lunch
를 회귀분석에 투입하려고 합니다. lunch
에는 rice
와 bread
, noodle
세 종류의 범주가 있습니다. 이때 더미코딩을 한다면 기준범주는 무엇이 됩니까?
- rice
- bread
- noodle
- 알 수 없음
위의 경우 회귀분석에 실제 투입되는 더미 변수는 모두 몇 개입니까?
- 0개
- 1개
- 2개
- 3개
위의 경우 회귀분석에서 다른 독립변수가 없을 때 절편(intercept)은 무엇을 의미합니까?
- rice의 예측값
- bread의 예측값
- noodle의 예측값
위의 경우 회귀분석에서 다른 독립변수가 없을 때 rice에 해당하는 더미변수의 기울기는 무엇을 의미합니까?
- rice의 예측값
- 기준범주와 rice의 예측값 차이
Question
안전도 데이터를 다운받아 risk
를 종속변수로,
wheels
를 독립변수로 회귀분석을 해보세요.
(01) wheels
의 범주는 모두 몇 개입니까?
(02) wheels
의 더미변수는 모두 몇 개입니까?
(03) 기준이 되는 범주는 무엇입니까?
(04) fwd은 4wd에 비해 모집단에서 위험도가 어떻습니까? (유의수준 5%)
- fwd가 낮다
- fwd가 높다
- 결론을 유보한다
- 알 수 없다
(05) rwd은 4wd에 비해 모집단에서 위험도가 어떻습니까? (유의수준 5%)
- rwd가 낮다
- rwd가 높다
- 결론을 유보한다
- 알 수 없다
(05) fwd은 rwd에 비해 모집단에서 위험도가 어떻습니까? (유의수준 5%)
- fwd가 낮다
- fwd가 높다
- 결론을 유보한다
- 알 수 없다
Question
냥이, 멍뭉, 토깽 3개의 범주를 가지는 반려동물 변수로 귀여움 종속변수를 예측하는 회귀분석을 하였다고 할 때 설명으로 잘못된 것은?
- 독립변수에 반려동물을 대신해서 더미변수 "반려동물[T.멍뭉]"과 "반려동물[T.토깽]"이 추가될 것이다.
- 반려동물[T.멍뭉]은 반려동물이 멍뭉일 때 1이고, 이외에는 0일 것이다
- 반려동물[T.멍뭉]은 멍뭉의 귀여움을 나타낼 것이다
- 이 회귀분석의 절편은 냥이의 귀여움을 나타낼 것이다
회귀분석과 분산분석
이렇게 하는데 이거 가만히 보면 분산 분석의 논리랑 비슷합니다
그래서 분산 분석의 논리는 세계 이상의 집단을 비교를 해서 만약에 차이가 있다 차이가 있으면 어느 집단이 다르냐 이렇게 나가는 게 분산 분석에 논리 이게 분산 분석에 논리인데 방금 회기분석에서도 비슷하겠어요
지금 치료제가 세계 있죠
치료제가 세계 이상 있고 그 다음에 어느 치료제가 다른지 비교도 했습니다
그럼 분산 분석이랑 뭐가 다르지?
회기분석이야 아까 얘기 드렸지만 사실은 회기분석은 분산 분석이나 T 검정을 포함하는 개념이기 때문에 회기분석으로 분산 분석을 할 수가 있습니다
실제로 분산 분석이랑 비교해 볼 수 있는데 B점 안오바 이렇게 해가지고 DV는 Y 이렇게 하고 B2위는 TRT 그 다음에 데이터는 DP죠
이렇게 보면 지금 P가 0.0사 나오고 F가 3.4사이 이렇게 나오는데 지금 우리가 회기분석한 거에 F를 보시면 3.4이 나오고 P가 0.0사 나옵니다
여기 회기분석 오른쪽 상단에서 세 번째 줄의 F랑 네 번째 줄의 P는 분산 분석에 해당되는 부분 이 부분을 보면 아 분산 분석을 했다면 이런 식으로 나오겠구나
라는 거를 그래서 이거랑 똑같고 그 다음에 에타 제고비 0.17인데 여기 R제고 보면 0.17이죠
그러니까 사실 그냥 회기분석 돌리면 분산 분석 돌리는 거랑 똑같아요
분산 분석은 처음부터 할 필요가 없잖아요
라고 할 수 있는데 분산 분석하고 좀 다른 게 있습니다
왜냐하면 분산 분석에서는 우리가 등분산성 검정을 해가지고 등분산성 검정을 해가지고 그룹으로 해서 여기 등분산성 가정이 깨지면 이거를 계산을 좀 다르게 할 수 있죠
이렇게 계산을 다르게 하면 F라든가 P뷔율이 좀 다르게 나오는데 F가 6.6사 P가 0.0사 온라이 그러면 회기분석이랑 달라진다 회기분석도 분산이 다른 걸 보정을 할 수 있는데 좀 방법이 복잡해져요
그래서 회기분석이랑 분산 분석이 기본적으로는 똑같은 방법입니다
똑같은 방법이고 회기분석 결과에서 여기 오른쪽 상단에 있는 요P뷰료 P, Pro, 한 다음에 분스테이크 요거를 보시면 분산 분석의 결과랑 똑같다 회기분석에서 Pro라고 나오는 분산 분석에 그래서 근데 이제 좀 차이가 있으면 회기분석은 2분산을 보정하기가 좀 복잡하고 분산 분석은 그냥 엘치, 아노바를 그래서 요거를 쓰시면 되고 요런 차이가 좀 있습니다
그 다음에 이제 우리가 보면은 또 하나 차이가 있는데 요것도 결국 지금 집단별 비교하는 거잖아요
A랑 B랑 비교하고 A랑 C랑 비교 요것도 우리가 이제 페어화이즈, 갬주호에 이렇게 해야 되겠죠
근데 지금 뭐 똑같이 안 다치고 2키로 해가지고 해보면 2키로 한다고 해 분산 분석하고 회기분석의 차이가 여기서 있는데 분산 분석에서는 4, 5 분석을 할 때 A랑 B, A랑 C, B랑 C를 비교하거든요
여기서는 잘 보시면 요거는 A랑 B를 비교한 거야
요거는 A랑 C를 비교한 거야
그러니까는 어?
그럼 B랑 C는 어떻게 비교하지?
회기분석에서는 B랑 C를 비교한 게 분산 분석의 4, 5 분석에서는 모든 집단을 서로 비교를 합니다
회기분석에서는 애퍼런스 하고만 비교를 해요
요것도 한 가지 또 차이가 된다
마지막으로 되게 중요한 차인데 분산 분석에서 요 페어화이즈로 할 때는 요 피벨류가 한 번 보정이 된다고 했잖아요
왜냐하면 비교를 세 번 하니까 세 번이나 비교를 하면은 애가 정확하게 될 가능성이 95% 애가 정확하게 될 가능성이 애가 정확하게 될 가능성이 95%라도 셋 다 동시에 정확할 가능성이 굉장히 낮단 말이에요
그래서 얘를 보정을 해가지고 그런 게 잘못 나오는 걸 좀 억제를 해줍니다
그래서 보시면 여기 피벨류가 0.08, 0.06, 0.98로 피벨류가 다 높아요
근데 회기분석에서는 피벨류가 조금 낮게 나오죠
0.03호 회기분석에서는 얘네가 유의하게 나왔는데 분산 분석에서는 얘네가 유의하게 나오지 않습니다
분산 분석이 해서 요게 또 들어가는데 분산 분석에서는 4, 5 분석을 할 때 5류의 가능성을 줄이기 위해서 피벨류를 비값을 보정해서 사용을 합니다
회기분석에서는 이런 보정이 안 들어가요
그래서 회기분석의 결과는 과장될 가능성이 있다 차이가 난다
이게 지금 우리가 회기분석에서는 아, b랑 c가 a보다 못하다
이렇게 나왔는데 이게 좀 과장이 됐을 수 있다
그래서 분산 분석을 하면은 이런 게 보정이 되기 때문에 분산 분석 기준으로 하면 a나 b나 a나 c나 우리가 규무 가사를 기각을 못 해요 차이가 없다는 걸 기각할 수가 없습니다
그러니까 여기서는 어떤 특정한 결론을 못 내리는 거 그래서 이런 것들이 공통점이자 차이점이 있고 실제로 회기분석에서도 이 피벨류를 보정하면 되지 않냐 회기분석을 주로 쓰는 사람들은 사실 예측에 조금 더 관심이 있거든요
예측을 잘 하면서 이런 것도 추가적으로 해석을 하고 싶은 거고 분산 분석을 하는 사람들은 요게 유의하냐 유의하지 않느냐 거기에 좀 더 칼 같은 관심이 있기 때문에 서로 관심사가 좀 다른데 회기분석에서도 요거를 보정을 할 수 있는데 이걸 보정하는 방법의 논문들이 이제야 막 나오고 있습니다
작년 올해 작년에 제 기억으로는 작년에 처음 나왔거든요
그러니까는 구현이 안 돼 있어요 회기분석에서 이 피벨류를 보정하는 그래서 이런 특징이 있기 때문에 서로 내가 뭘 더 중시하느냐 회기분석을 하실 때는 내가 예측을 잘 하고 싶구나
아니면 통계적 통제를 잘 하고 싶은데 부가적으로 가설 검정도 하고 싶다
이럴 때는 회기분석을 쓰시고 언제 무엇을 쓰나요?
회기분석을 주로 하고 가설 검정을 부가적으로 하고 싶다
이럴 때 하고 분산 분석은 가설 검정을 정확하게 하고 싶고 예측은 예측이나 통계적 통제는 관심없다
그러니까 예를 들면 통계적 통제를 못 하는데 그거는 내가 실험을 알아서 잘 할 테니까 실험해서 불필요한 변수는 내가 배제하겠다 분산 분석을 하실 때는 기본적으로 실험적 통제가 들어가줘야 한다
그래서 두 가지가 근본적으로 보면 똑같은 방법이라고 할 수 있는데 이런 디테일의 차이가 있긴 사용을 언제 뭘 하느냐
기준 범주 바꾸기
그래서 회기분석이랑 분산분석은 기본적으로 통하는 부분이 있다
그래서 통하는 부분이 있지만 좀 그런 차이도 있는 거죠
그래서 분산분석을 회기분석으로 하는 거랑 분산분석으로 하는 거랑 기본적으로는 똑같은 거다
분산분석에 나오는 이 결과랑 회기분석에서 나오는 이 결과는 숫자가 지금 똑같죠
똑같은 숫자가 나오니까 같은 거라고 볼 수 있는데 분산분석이 좀 더 어떤 집단감 비교에는 최적화가 돼있어
그래서 집단감 비교에 맞춰서 여러 가지 보정을 한다든가 이런 거니까 여러분들이 어떤 상황이냐에 따라서 뭘 쓸지 결정하면 돼요
예를 들면 이런 게 있어요
언제 뭘 쓰느냐 아까 보면 분산분석은 예측이나 통계적 통제를 안 해도 되는 그런 상황이죠
예를 들면 여러분 신제품을 만들어서 고객들한테 블라인드로 신제품 테스트를 시켰어요
그런 경우에는 가설 검정을 정확하게 하는 게 중요하니까 분산분석을 쓰시는 게 좀 더 나은 방법이라고 할 수 있어요
그런데 그런 게 아니고 우리가 데이터가 막 복잡하게 섞여 있고 이런 상황이다 그러면 실험적으로 통제를 못 하니까 통계적 통제를 잘 하고 예측을 잘 하는 게 중요하거든요
예를 들면 우리가 아파트 가격을 예측을 하고 싶다
이 아파트는 한 요 정도 가격이 돼야 될 것 같다
이런 걸 할 때는 우리가 실험적 통제를 할 수가 없습니다
예를 들면 어떤 아파트가 강붙에 있는데 우리가 실험적 통제를 위해서 이 아파트를 뽑아 가지고 강남에다 옮겨심을 순 없단 말이에요
그러면 실험적 통제가 안 되니까 통계적 통제를 해야겠죠
그런 상황에서는 회기분석을 하는 것이 좀 더 낫다고 할 수 있고 가설 검정 결과는 항상 과장돼서 나올 수 있으니까 조금 감해서 보셔야 될 필요가 있습니다
그 다음에 기준 범주 바꾸는 건 조금 복잡한데 어떻게 하면 되냐면 여기다가 그냥 원래 모델이라고 넣으면 되죠 모델이라고 넣으면 되는데 여기 대문자로 앞에 C라고 붙이고 그다음에 트리트먼트 한 다음에 여기다가 기준 범주가 되었으면 하는 걸 넣어주시면 됩니다
그래서 우리가 아까 중고차 데이터 같은 경우에는 OLS 한 다음에 원래 가격을 모델로 분석을 하면 이렇게 분석을 하게 되는데 이때는 아반때를 레퍼런스로 넣잡고 K3를 비교 대상으로 사는 거예요
아반때나 833만 원 K3가 80만 원 이렇게 플러스 80만 원 이렇게 아반때나 기준이 돼 가지고 833만 원이 되고 그다음에 K3는 그거보다 플러스 80만 원 이렇게 되는데 이거를 좀 복잡하지만 여기 앞에다 대문자로 C라고 붙여주시기 다음에 트리트먼트 한 다음에 다운표하고 K3 하면 K3가 기준이 되는 거예요
이렇게 분석하시면 K3를 기준으로 해서 그래서 절편이 833에서 913으로 바뀌죠
그래서 K3가 기준이 되고 아반때나는 그거보다 80만 원 작다
이렇게 이렇게 보시면 약간 어퍼치나 매치나요
이거는 아반때보다 K3가 비싸다고 이거는 K3보다 아반때나가 싸다는데 어차피 똑같은 얘기죠
이거나 그래서 사실 집단이 두 개일 때는 기준을 바꾸실 필요가 없습니다
바꿔도 어차피 똑같은 얘기니까 그래서 보시면 나머진 다 똑같아요
여기 R제곱도 0.011이고 여기도 0.011이고 다른 거는 다 똑같고 방향만 바뀌는 거예요
그냥 대칭으로 그래서 집단이 두 개일 때는 기준을 레퍼런스를 바꿔도 분석 결과의 차이가 사실상 차이가 없다
그러면 집단이 세 개일 때는 어떻게 될까요 집단이 세 개일 때는 좀 달라집니다
우리가 M은 오일, S 한 다음에 치료효과를 분석을 하는데 이렇게 하면 A를 기준으로 삼아요 A를 기준으로 삼아서 점픽 A를 기준으로 삼아서 A가 62고 B는 그것보다 minus 10C는 A보다 라고 합시다
A보다 minus 11이다 이런 식으로 분석 결과가 나오고 근데 이거를 기준을 바꾸면 기준을 C로 바꿔보죠
그러면 C를 기준으로 바꿔보면 어떻게 됐냐
결과가 많이 달라져요
C가 51이고 B는 A죠
A는 C보다 11.
높다 C보다 plus 11이고 B는 C보다 plus 0.6 이 두 개의 분석을 보면 B하고 A를 비교하고 C하고 A를 비교했는데 A하고 C를 비교하고 B하고 C를 비교합니다 C하고 A는 이쪽에서도 비교하고 이쪽에서도 비교하고 똑같지만 여기서는 B하고 A를 비교했는데 여기서는 B하고 C를 비교합니다
A하고 B의 비교는 없어요
그리고 여기서는 B하고 C의 비교가 없습니다
회기 분석할 때 그 레퍼런스를 어디로 잡느냐에 따라서 결과가 달라요
ANOVA를 할 때는 어차피 다 비교하니까 레퍼런스가 딱히 없는데 회기 분석에서는 레퍼런스를 뭘 잡느냐에 따라서 이 분석 결과가 좀 다를 수 있다
그래서 이거는 여러분들이 미리 생각을 하셔야 됩니다
회기 분석으로 할 거면 범죄가 여러 개일 때 내가 지금 뭘로 분석을 할 건지 뭘 기준으로 할 건지 정해서 하셔야 돼요
그래서 그냥 하면 ABC 순으로 돌아가니까 약간 원하는 결과가 안 할 수 그다음에 아까 하나 빠진 게 있는데