귀납적

고전적인 의미에서 통계적 추론이란 귀납법이다. 즉, 논리에서 출발해서 개별, 구체로 내려가는 것이 아니라, 관찰된 개별, 구체에서 일반화로 나아가는 것이다. 조금 더 통계학적으로 이야기해보자.

어떤 모집단(population)이 있다고 하자. 이 모집단의 특성을 요약하는 모수(parameter)가 존재할 것이다. 정규 분포로 말한다면, 평균과 분산이 이에 해당한다. 이런 모수가 존재하고, 개별 관찰은 이 모수에 의해 규정된다. 우리가 얻은 표본(sample)은 모수에 관한 정보를 담고 있다. 통계적인 추론이란 표본(sample)에서 모수에 관한 정보를 추출해내는 귀납적인 과정이다.

우연적 vs 인식론적

불확실성은 두 가지로 구별된다. 원어는 aleatory uncertainty와 epistemic uncertainty다. ‘알레아’는 라틴어로 주사위 혹은 도박을 나타낸다. 번역은 우연적 불확실성이라고 풀었지만, 이 불확실성은 행위자가 개입되는 불확실성으로 보는 게 맞는 것 같다. 도박이란 ‘주사위 굴리기’로 한 사람이 개입될 때에만 의미를 지닌다. 반면, 인식론적 불확실성은 결과는 이미 정해졌으나 이를 알지 못할 때 나타나는 불확실성이다.

스피겔할터는 아직 추첨을 하지 않은 로또와 스크래치 복권의 차이로 이를 설명하고 있다. 전자는 당첨 번호가 아직 나오지 않았다. 또한 로또는 해당 회차에 얼마나 많은 사람이 복권을 구입하는지에 따라서 당첨 액수가 달라진다. 반면 스크래치 복권은 복권을 사는 순간 당첨 여부 및 당첨 액수 역시 정해져 있다.

통계를 사용하게 되는 경우는 대부분 인식론적 불확실성이 작용할 때다. 앞서 보았듯이 모수가 확실히 존재하고 샘플을 통해 이를 알아내는 것이 문제인 경우다. 우연적 불확실성이 인식론적 불확실성으로 문제가 바뀌었을 때 통계학을 적용할 수 있다. 따라서 확률론은 과거에 관측했던 것에 기반해 모수에 관해 말해주는 학문인 셈이다.

신뢰 구간의 의미

신뢰 구간 이야기를 해보자. 신뢰 구간을 가장 잘못 표현하는 흔한 사례. “참 값이 특정한 구간 안에 포함되어 있을 확률이 95%…” 앞서 보았듯이, 통계학은 모수의 존재에서 출발한다. 모수는 불확실한 것이 아니라 확실한 것이다. 다만 아직 모를 뿐이다. 따라서 모수가 특정 구간 안에 포함될 확률, 이라는 표현 자체가 틀린 것이다!

그래서 신뢰 구간 관한 표현들을 보면, 모수(파라미터)의 적절한 범위 등으로 완곡한 표현을 쓰고 있다. 다음에 기회가 되면 자세히 보시라. 참 값(일단 여기서는 모수와 같은 의미로 쓰겠다)이 포함될 확률 따위의 표현을 쓰면 믿고 걸러도 된다.

그렇다면 신뢰 구간을 무엇일까? 앞서 말했듯이 통계적 추론이란 귀납적인 과정이다. 즉, 표본에서 모수를 추적하는 것이다. 여기 어떤 표본에 기반한 추정치 $\overline{X}$(그냥 표본 평균이라고 생각하면 편하겠다)가 있다고 하자. 이 표본은 모집단의 모수 $\mu$를 추정하기 위한 추정치다. 이 추정치는 매번 표본을 추출할 때마다 달라질 것이다. 다만 우리는 이론적으로 이 표본을 통해 참 값이 어디쯤 있는지를 95%의 확률로 알 수 있다.

말 장난 같은가? 참 값이 속할 확률이 95%라는 말과 이 말이 다를까? 다르다. 앞서 말했듯 모수는 정해진 값이므로 확률변수가 아니다. “참 값이 속할 확률”은 오해의 소지가 있는 말이다. 참 값은 정해진 모수이고 이를 알기 위해 우리가 뽑은 표본의 분포에 비추어 특정 구간이 참 값을 포함할 확률이라고 표현해야 한다.

확률 변수는 표본에 기반한 추정치다. 만일 이런 표본을 뽑는 행위를 100번 했다면, 그 중에서 95번은 해당 범위가 참 값을 지니고 있을 것이다. 즉 우리가 얻은 한번의 표본이 타당할 확률이 95% 정도 된다는 이야기다. 즉 초점을 어디에 두고 있는지 잘 살펴야 한다.

Formalization

$n$이 충분히 크다면, 다음과 같이 주장할 수 있다.

$$ \frac{\overline{X} - \mu}{\sigma/n} \sim N(0, 1) $$

표본 평균 $\overline{X}$는 확률 변수다. 그런데 이 녀석이 정규 분포를 따를까? 중심 극한 정리에 따르면 $X$가 원래 어떤 분포를 따르는지와 무관하게 $n$이 충분히 크다면 $\overline {X} = \sum_{i=1}^n x_i$은 정규 분포를 따르게 된다. 잠깐! $\sigma$도 모르는데? 문제가 복잡해지니까 일단 안다고 치자.1

중심 극한 정리 덕분에 $\overline{X}$는 정규 분포를 따르게 되고, 따라서 $\overline{X}$가 속하는 확률이 95%되는 구간을 구할 수 있다. 즉,

$$ P(\dfrac{|\overline{X}-\mu}{\sigma / \sqrt{n}} | \leq 1.96) = 0.95 $$

따라서 신뢰구간은

$$ \mu - 1.96 \frac{\sigma}{\sqrt{n}} \leq \overline{X} \leq \mu + 1.96 \frac{\sigma}{\sqrt{n}} $$
$$ \overline{X} - 1.96 \frac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + 1.96 \frac{\sigma}{\sqrt{n}} $$

식으로는 $\overline{X}$와 $\mu$를 바꾸면 되지만, 그렇다고 해서 $\mu$를 확률변수 처럼 해석해서는 안된다.

말로 하자

말로 풀어보자. $\overline{X}$가 확률변수이므로 표본으로 추출되는 것은 이 녀석이다. 우리가 지금 갖고 있는 결과가 그 표본 추출의 실현 사례다. 그리고 95% 신뢰구간의 의미는 $\overline{X}$를 100번 뽑았을 때 95번에 정도는 참 값을 포함한다는 의미에서 ‘맞는’ 범위가 나온다는 뜻이다.

이제 $\mu$ 구간의 의미를 새겨보자. 미지의 그리고 이미 결정된 모수 $\mu$는 대략 저 사이에 있을 것으로 표본을 통해 파악했다. 이 진술을 95% 정도의 강도로 믿을 수 있다는 이야기다. 다시 강조하지만, $\mu$가 저 안에 있을 확률이 95%라는 말은 아니다. 이 대목이 우연적 불확실성과 인식론적 불확실성의 차이를 드러내는 듯 하다. $\mu$가 실현되기 전에(동전 던지기를 생각하자), 이를 반복해서 추출할 때 저 구간에 들어올 확률이 95%라는 말과 이미 정해진 $\mu$를 알아내기 위해서 샘플을 추출했고 그 결과를 95%의 확신으로 받아들일 수 있다는 말 사이의 차이다.

비율의 신뢰 구간

선거철이면 많이 접하게 되는 여론 조사에서 방송에서 반드시 이야기해야 하는 내용이 있다. “이 조사는… 전국 만 18세 이상 성인 1001명을 대상으로 … 95% 신뢰 수준에서 표본 오차 ±3.1%…”

이 말을 좀 나눠보자. 일단 1001 명은 표본 크기에 해당한다. 95% 신뢰 수준이란 것이 바로 위에서 살펴본 저 내용이다. 간혹 이 말을 듣고 해당 조사가 95% 신뢰할 수 있다고 생각하는 경우가 있는데, 그렇지 않다. 만일 같은 조사를 100번 반복한다면 그 중 95번 정도는 오차를 포함한 해당 구간 안에 참 값을 지니고 있게 된다는 뜻이다. 조사 결과의 신뢰성과는 관계가 없다. 만일 여론 조사에 알 수 없는 편향이 강하게 개입했다면 신뢰성은 95%는 커녕 10%도 안될 수 있다. 반면 동일한 편향을 지닌 채 같은 조사를 100번 반복하면 95번 정도는 오차 범위를 고려한 수준에서 비슷하게 나올 것이라는 뜻이다.

이제 ±3.1%의 의미도 이해가 될 것이다. “표준 오차”다. 표준 오차란 표본 평균의 표준 편차를 의미한다. 즉, 모집단의 표준 편차가 $\sigma$이고 각 표본이 독립적이고 동일한 방식으로 잘 표집 되었다면,

$$ V(\overline{X}) = \dfrac{1}{n^2} \sum_{i=1}^n V(x_i) = \dfrac{1}{n^2} n \sigma = \dfrac{\sigma}{n}. $$

앞서 신뢰구간에서 본 1.96 옆에 곱해진 것이 표준 오차, 즉 표본 평균의 분산의 제곱근이다.

표준 편차는 몰라도 돼! 상한을 생각하자.

지지율과 같은 비율은 일종의 베르누이 분포이다. 표본 평균 $\overline{p}$는 즉 표본 크기에서 해당 특성을 지닌 대상의 비율이 된다. 앞서 95% 신뢰구간을 응용해보자.

$$ \overline{p} - 1.96 \frac{\sigma}{\sqrt{n}} \leq p \leq \overline{p} + 1.96 \frac{\sigma}{\sqrt{n}} $$

참 값 $p$가 속하는 범위를 95% 신뢰 수준에서 위와 같이 설정할 수 있다. 걸리는 부분은 분산이다. 베르누이 분포에서 분산은 $p(1-p)$로 계산된다. 물론 $p$를 모르기 때문에 이 녀석을 $\overline{p}$로 바꿔주면 된다. 그런데 분산을 몰라도 그럴듯한 표준 오차를 만들어는 방법이 있다.

최대 표준 오차, 즉 표준 오차의 상한(upper bound)을 따져보자. 분산 값이 가능한 범위에서 가장 큰 표준 오차를 생각해보자. 앞서 말했듯이 분산은 $p(1-p)$인데, 이는 $p$에 대해 이차식이다. 분산의 최대값은 $p=\frac{1}{2}$에서일 때 만들어지고, 이에 따른 표준 편차의 최대값이 $\frac{1}{2}$이다. 이를 대입하면

$$ 1.96 \dfrac{1/2}{\sqrt{n}} < 2 \dfrac{1/2}{\sqrt{n}} = \dfrac{1}{\sqrt{n}} $$

즉 95% 신뢰 수준의 최대 표준 오차는 $\frac{1}{\sqrt{n}}$로 쉽게 결정할 수 있다. 1,000 명 정도라면, $\sqrt{n}$은 32 정도 될 것이다. 1/32는 대략 3.1% 정도 된다. 천 명 조사에 3.1%를 많이 보게 되는 것은 우연이 아닌 것이다!

  1. 점근적으로 살펴보자. 표본의 크기, 즉 $n$이 커지면서 표본 분산은 모 분산에 접근한다. 왜? 대수의 법칙(LLN) 때문이다. 즉, $\lim_{n \to \infty} S_n = \sum_{i=1}^n \frac{(x_i - \overline{x})^2}{n-1} \to \sigma^2$