[확률] 분산
분산(Variance)의 이해
분산의 정의
분산(variance)은 확률변수의 각 값에서 기대값(평균)을 뺀 것의 제곱의 평균입니다. 간단히 말해, 분산은 데이터가 해당 데이터의 평균값으로부터 얼마나 흩어져 있는지를 수치화한 것입니다. 분산이 크다는 것은 데이터가 평균으로부터 멀리 퍼져 있다는 의미이고, 분산이 작다는 것은 데이터가 평균 근처에 몰려있다는 것을 의미합니다.
수학적으로, 확률변수 X의 분산 σ^2는 다음과 같이 정의됩니다:
여기서 E[X]는 X의 기대값입니다.
분산 계산 과정
분산을 계산하기 위한 단계는 다음과 같습니다:
- 각 데이터 포인트에 대해, 그 값에서 전체 데이터의 평균을 빼줍니다.
- 1단계에서 구한 각 차이를 제곱합니다.
- 제곱한 차이들의 평균을 구합니다.
예를 들어 수치 데이터 집합이 1, 2, 3, 4, 5라면, 평균은 3입니다. 각 수에서 평균을 빼고, 제곱하고, 제곱한 결과의 평균을 내면, 그 값이 바로 분산입니다.
분산이 확률 문제에서 왜 중요한가?
분산은 데이터 분포의 퍼짐 정도를 측정하는 데 중요합니다. 확률 문제에서 분산을 이해하는 것은 결과값이 예상 범위에서 얼마나 벗어날 수 있는지를 이해하는 데 필수적입니다. 높은 분산은 예측의 불확실성이 높다는 것을 나타내며, 이는 확률적 결정을 내릴 때 큰 영향을 미칩니다.
기대값과 분산의 관계
기대값과 분산 사이의 수학적 관계
분산의 수학적 정의는 기대값과 밀접한 관계가 있습니다. 분산을 계산하는 공식을 조금 다르게 표현하면, 분산은 기대값과 데이터 값들의 제곱의 기대값의 차입니다.
이 공식은 분산 계산 시 기대값 이론을 사용하는 방법을 알려줍니다. 기대값이 분산의 계산에 직접 영향을 미친다는 것이 이 공식으로 명확해집니다.
분산을 사용한 확률 분포의 이해
분산은 특정 확률 분포의 특성을 이해하는 데 중요한 역할을 합니다. 예를 들어, 확률 분포가 같은 기대값을 가질 때, 분산의 크기는 데이터가 평균값으로부터 얼마나 떨어져 있는지를 나타냅니다. 정규분포의 경우, 분산은 종 모양의 퍼짐 정도를 결정하며 이로 인해 높은 분산은 데이터가 평균으로부터 더 멀리 퍼져있음을 의미합니다.
고급 예제로 본 기대값과 분산의 실용적 적용
확률과정에서의 기대값과 분산을 이해하는 것은 투자 결정, 위험 관리, 및 기타 다양한 분야에서 실용적으로 중요합니다. 예를 들어, 두 가지 주식 A와 B가 동일한 예상 수익률(기대값)을 가지고 있다고 가정해보겠습니다. 하지만, A의 분산이 B의 분산보다 훨씬 높다면, A는 B보다 훨씬 더 위험한 투자라고 판단할 수 있습니다. 이는 A가 평균(기대 수익률)으로부터 더 많이 벗어난 값일 가능성이 높기 때문입니다.
따라서, 기대값과 분산은 불확실성을 측정하고 관리하는 데 있어 중요한 도구입니다. 결국, 이 두 가지 요소는 확률적 문제를 다룰 때 우리에게 데이터가 어떻게 분포하고 이로 인해 어떠한 위험이나 기회가 발생하는지에 대해 통찰력을 제공해 줍니다.