Standard Error
표준 오차에 관한 개인적인 정리
왜?
통계학을 들은 사람들이라면 표준 오차는 대체로 잘 아는 내용이다. 순전히 개인적인 정리를 위한 용도다. 나이를 드니까 명민함이 떨어지고 당연하게 알고 있었던 것도 모르게 되는 경우가 많으니까.
Sample Mean
독립적인 무작위 추출로 크기 $n$의 표본 $x_1, \dotsc, x_n$을 얻었다고 하자. $x_i$가 모평균 $\mu$와 모 표준편차 $\sigma$를 따른다고 할 때, 표본 평균은 다음과 같다.
$\overline{X}_n = \sum_{i=1}^n x_i.$
- $\mathbb E(\overline X_n) = \mu$
- ${\rm Var} (\overline X_n) = {\sigma^2}/{n}$
덤으로 Central Limit Theorem에 따르면 다음에 성립한다.
- $\overline X_n \sim {\rm N} (\mu, {\sigma^2}/{n})$
Standard Error
어떤 통계량의 표준 오차는 (표본) 통계량의 표준 편차를 의미한다. 위 식에서 ${\rm Var} (\overline x)$을 의미한다. 많이 사용되는 표본 평균의 표준 오차는 SEM(Standard Error of the Mean)이라고도 한다. 표본 평균 $\overline X_n$의 표준 편차를 생각해보자. $\sigma^2 < \infty$를 가정할 때,
그런데 우리는 $\sigma$를 알 도리가 없다. 즉, SEM은 $\sigma/\sqrt{n}$이지만 $\sigma$를 알도리가 없으므로 이 값 역시 추정의 대상이다. 얼른 생각할 수 있는 추정량 $S_n$는 다음과 같다.
몇가지 가정이 필요하지만, 대수의 법칙에 따라서 $S_n^2 \overset{P}{\longrightarrow} \sigma^2$가 성립하고, $S^2$은 $\sigma^2$의 일치 추정량이다. 이 문제는 조금 뒤에 다시 살펴보자. $\overset{P}{\longrightarrow}$는 확률적인 수렴, 즉 probability limit을 뜻한다.
Unbiased and Consistent
- 표본 평균은 모평균의 불편 추정량이다. 즉, $\mathbb E(\overline X_n) = \mu$
- 표본 평균은 모평균의 일치 추정량이다. 즉, $\sigma^2$의 값은 모르지만 $n$이 커짐에 따라서 표본 평균의 분산이 0이 된다. 우선 대수의 법칙에 따라서 다음의 결과가 성립한다. $\lim_{n \to \infty} \overline X_n = \mu$.
- 대수의 법칙 없이 설명한다면? $\mathbb E (\overline X_n) = \mu$가 성립한다. 즉, $\overline X_n$의 분포를 고려할 때 표본 평균의 기댓값은 $\mu$이다. 이때, 표본 평균의 분산은 앞서 계산한 표준오차의 제곱이다. 즉, $\rm Var(\overline X_n) = \dfrac{\sigma^2}{n}$. 모분산 $\sigma^2 < \infty$를 가정했기 때문에 $n$이 증가함에 따라서 $\rm Var$이 0으로 수렴한다. 따라서 $\overline{X}$는 일치 추정량이다.
More on $S^2$
$(n-1)$ in denominator
$S^2$의 분모에 왜 $(n-1)$이 들어갈까? 불편 추정량을 얻기 위해서다. 불편 추정량이란 해당 통계치의 기대값이 모수가 되는 추정량을 의미한다. 직접 $S^2$의 기대값을 구해보자. 먼저,
$\mathbb E(x_i^2) = \sigma^2 + \mu^2$임을 기억해두자.
이제 $S^2$의 기대값을 구해보자. 분자 먼저 계산하자.
합해지는 부분의 각각을 따져보자.
- $\mathbb E[(\dfrac{x_1 + x_2 + \dotsb + x_n}{n})^2]$의 분자를 계산하면 된다. 먼저 각 $x_i$의 제곱이 $n$개 나온다. 다음으로 각각 $x_i$가 독립적으로 추출되었으므로 $i \neq j$일 때 $\mathbb E(x_i x_j) = \mathbb E(x_i) \mathbb E(x_j) = \mu^2$이 된다. $n$ 개 중에서 2개를 순서에 관계 없이 뽑게 된다. 즉,
따라서,
이제 각각을 넣어 계산을 완료하자.
따라서 불편 추정량이 되기 위해서는 $S^2$의 분모에 $n-1$이 필요하다.
Consistency
이제 일치성을 알아보자. 엄밀한 증명은 생략하고 간략하게 아이디어만 적도록 하겠다.1 $\rm Var (S^2_n) < \infty$를 가정하자. 이때
t-distribution
Gosset이 제안한 $t$분포는 정규 분포에서 온 분포다. 원래 형태는 다음과 같다.
$Z$는 표준정규분포를, $V$는 자유도가 $v$인 카이제곱 분포를 나타낸다.
$S^2$이 따르는 분포
$S^2$이 $(n-1)$의 자유도를 따르는 카이제곱 분포를 따를까? 간단히 계산해보자. 우선 몇 가지 결과를 먼저 얻어보자. iid로 표집된 $Z_1, \dotsc, Z_n$이 있다고 하자.
- $Var(\overline{Z}) = {1}/{n}$
- $\sqrt{n} \overline{Z} \sim N(0,1)$
- $n \overline{Z}^2 \sim \chi^2_1$
이 결과를 이용해 다음을 증명해보자.
즉, $\sum_{i=1}^n (Z_i - \overline{Z}) \sim \chi^2_{n-1}$이다.
이제 다음을 확인해보자.
보통 평균의 신뢰구간을 추정하는 과정에서는 표본 분산을 추정하는 데 평균 값 하나를 쓰게 되고, 따라서 자유도가 1 줄어들게 된다. $t$ 분포는 $n$이 증가함에 따라서 정규 분포에 근사하기 때문에 대부분의 교과서에서는 $n \geq 30$ 이상에서는 대충 정규 분포를 써도 된다고 이야기하고 있다.
Regression Coefficients
회귀 계수를 검정할 때는 보통 $t$분포를 쓴다. 왜 그럴까? 매트릭스 형태로 회귀 모형을 다시 음미해보자.
- $y \sim \mathrm N(X\beta, \sigma^2 I_n)$
따라서, $\hat \beta$의 분포는 다음과 같다.
따라서 $\hat \beta$는 정규 분포를 지니게 된다. 따라서 $\hat \beta_i$를 검정할 때 t-분포가 등장할 수 있다. 즉,
우리는 $\sigma$를 알 수 없으므로 sigma를 $S^2$으로 추정해야 한다. 회귀 모형이 $p$개의 파라미터를 추정한다고 하면–즉, $\beta_1, \dotsc, \beta_k$를 추정한다–, $S^2$은 다음과 같다.
- $x^T_i$: $X^T$의 $i$ 번째 컬럼 벡터
따라서 $t_i$분자는 정규 분포를 분모는 자유도 $(n-p)$의 카이제곱 분포를 따른다.