[basic-stat-python] 일원분산분석

일원분산분석의 가설

PlantGrowth.csv를 다운로드 받아 연다.

import pandas as pd

df = pd.read_csv('PlantGrowth.csv')
df.head()

이 자료에서 group 요인은 수준이 ctrl, trt1, trt2 세 개. 다시 말해 세 집단을 비교하는 것.

df.group.unique()

array(['ctrl', 'trt1', 'trt2'], dtype=object)

aov 함수로 분산분석을 수행. group이 독립변수, weight가 종속변수. 즉, group에 따라 weight가 달라지는지 검증.

from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

model = ols('weight ~ C(group)', df).fit()
anova_lm(model)

	df	sum_sq	mean_sq	F	PR(>F)
C(group)	2.0	3.76634	1.883170	4.846088	0.01591
Residual	27.0	10.49209	0.388596	NaN	NaN