본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 9일차 - 분산 n으로 나눌까? n-1로 나눌까? <이토록 쉬운 통계 & R>

by 잇포에듀 2018. 2. 6.
반응형

통계학 & R 프로그램 스터디 9일차 

- 더치페이와 N빵(3) :: 분산!! n으로 나눌까? n-1로 나눌까? <이토록 쉬운 통계 & R>




통계 관련된 책들을 보면 어떤 책은 분산을 $n$으로 나눠서 계산을 하고 어떤 책은 $n-1$로 나눠서 계산한다. 도대체 뭐가 맞는 걸까?


이것은 무엇이 맞고 틀리냐의 문제가 아니다. 분산을 계산하는 샘플을 무엇으로 선택하느냐에 따라 차이가 생긴다. 모집단 전체로 분산을 구하느냐? 임의로 추출한 표본집단으로 분산을 구하느냐?에 따라 계산 방법이 달라진다. 그렇다면 왜 두 경우에 계산 방법이 달라질까?


* 수식 압박에 주의하세요..ㅎㅎ


TeX이 변환되는 데 시간이 조금 걸릴 수 있습니다. 조금만 기다려주세요~~


 




모집단에서 크기가 $n$인 표본 $X_1$, $X_2$, $\cdots$, $X_n$을 임의추출하였을 때,  다시말해

$$(표본) = \{X_1, X_2, \cdots , X_n \}$$

라고하면

$$\frac{1}{n} (X_1 + X_2 + \cdots + X_n) = \frac{1}{n}\sum_{i=1}^{n}X_i$$

를 표본평균이라 하고, 기호로 

$$\overline{X}$$

와 같이 나타낸다. 또,

$$\frac{1}{n-1}\{(X_1 - \overline{X})^2 + (X_2 - \overline{X})^2 + \cdots (X_n - \overline{X})^2\} = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \overline{X})^2$$

을 표본분산, 표본분산의 양의 제곱근을 표본표준편차라 하고, 기호로 각각 

$$S^2, ~~~ S$$

와 같이 나타낸다. 분산을 구할 때, 왜 $n$으로 나누지 않고 $n-1$로 나누는 것일까?



용어 정의하기


모집단의 어떤 특성을 나타내는 확률변수 $X$의 평균 $\mu$, 분산 $\sigma^2$ , 표준편차 $\sigma$를 각 각 모평균, 모분산, 모표준편차라고 한다.


모집단의 크기가 $N$이라고 하면, 다시 말해

$$(모집단) = \{X_1, X_2, \cdots , X_N \}$$

라고 하면

$$\mu = \frac{1}{n} (X_1 + X_2 + \cdots + X_N) = \frac{1}{N}\sum_{i=1}^{N}{X_i}$$

$$\sigma^2 = \frac{1}{N} \{(X_1 - \mu)^2 + (X_2 - \mu)^2 + \cdots (X_N - \mu)^2 \} = \frac{1}{N}\sum_{i=1}^{N}(X_i - \mu)^2$$

이다.


한편, 표본집단의 어떤 특성을 나타내는 확률변수 $X$의 평균 $\overline{X}$, 분산 $S^2$ , 표준편차 $S$를 각 각 표본평균, 표본분산, 표본표준편차라고 한다.


모집단에서 크기가 $n$인 표본 $X_¡$, $X_2$, $\cdots$, $X_n$을 임의추출하였을 때,  다시말해

$$(표본) = \{X_1, X_2, \cdots , X_n \}$$

라고하면

$$\overline{X} = \frac{1}{n} (X_1 + X_2 + \cdots + X_n) = \frac{1}{n}\sum_{i=1}^{n}X_i$$

$$S^2 = \frac{1}{n}\{(X_1 - \overline{X})^2 + (X_2 - \overline{X})^2 + \cdots (X_n - \overline{X})^2\} = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2$$

이다.


여기서 한 가지 기억해야 할 것은

$$N \ge n$$

다시 말해

$$(모집단) \supset (표본)$$

이라는 사실이다.



먼저 알아두기 (1)

$E(X)$는 이산확률변수 $X$의 기댓값 또는 평균이라 하고 아래와 같이 정의한다.

$$\color{red}{E(X) = \sum_{i=1}^{N}{X_i P(X_i)}}$$


$V(X)$는 이산확률변수 $X$의 분산이라 하고 아래와 같이 정의한다.

$$\color{red}{V(X) = \sum_{i=1}^{N} {(X_i - \mu)^2 P(X_i)} }$$


이산확률변수 $aX + b$에 대하여

$$E(aX + b) = aE(X) + b$$

$$V(aX + b) = a^2V(X)$$


* 고등학교 확률과 통계 교과서 참고


먼저 알아두기 (2)

$$\begin{align} V(X) &= \sum_{i=1}^{N} {(X_i - \mu)^2 P(X_i)} \\ &= \sum_{i=1}^{N}{(X_i^2 - 2X_i \mu + \mu^2)P(X_i)} \\ &= \sum_{i=1}^{N}{X_i^2 P(X_i)} - 2\sum_{i=1}^{N}{X_i P(X_i)\mu} + \mu^2\sum_{i=1}^{N}{P(X_i)} \\ &= E(X^2) - 2E(X)\mu + \mu^2 \times 1 \\ &= E(X^2) - 2\{E(X)\}^2 + \{E(X)\}^2 \\ &= E(X^2) - \{E(X)\}^2      \end{align}$$

$$\color{red}{\therefore E(X^2) = V(X) + \{E(X)\}^2}$$



* 고등학교 확률과 통계 교과서 참고



먼저 알아두기 (3)

모평균 $\mu$, 모표준편차 $\sigma$인 모집단에서 크기가 $n$인 표본 $X_1$, $X_2$, $\cdots$, $X_n$을 임의추출하였을 때,$X_1$, $X_2$, $\cdots$, $X_n$ 각각의 확률 분포는 모집단의 확률분포와 같다. 즉

$$E(X_1) = E(X_2) = \cdots = E(X_n) = \mu$$

모집단의 평균(기댓값)과 표본집단의 평균 사이에는 다음과 같은 관계가 있다.

$$\begin{align} E(\overline{X}) &= E\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right)  \\ &= \frac{1}{n} E(X_1 + X_2 + \cdots + X_n)  \\ &= \frac{1}{n} \{ E(X_1) + E(X_2) + \cdots + E(X_n)\} \\ &= \frac{1}{n} \cdot \{n \cdot E(X)\} \\ &= E(X) \\ &= \mu \end{align}$$

$$\color{red}{\therefore E(\overline{X}) = E(X) = \mu}$$



먼저 알아두기 (4)

모평균 $\mu$, 모표준편차 $\sigma$인 모집단에서 크기가 $n$인 표본 $X_1$, $X_2$, $\cdots$, $X_n$을 임의추출하였을 때,$X_1$, $X_2$, $\cdots$, $X_n$ 각각의 확률 분포는 모집단의 확률분포와 같다. 즉

$$V(X_1) = V(X_2) = \cdots = V(X_n) = \sigma^2$$
모집단의 분산과 표본집단의 분산 사이에는 다음과 같은 관계가 있다.

$$\begin{align} V(\overline{X}) &= V\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right)  \\ &= \frac{1}{n^2} V(X_1 + X_2 + \cdots + X_n)  \\ &= \frac{1}{n^2} \{ V(X_1) + V(X_2) + \cdots + V(X_n)\} \\ &= \frac{1}{n^2} \cdot \{n \cdot V(X)\} \\ &= \frac{1}{n}V(X) \\ &= \frac{\sigma^2}{n} \end{align}$$

$$\color{red}{\therefore V(\overline{X}) = \frac{\sigma^2}{n}}$$



 



증명

서론이 길었다. 앞에서 정리한 내용들을 이용하여 본격적인 증명에 들어가보자.

$$\begin{align} E(S^2) &= E\left(\frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2\right) \\  &= E\left(\frac{1}{n}\sum_{i=1}^{n}{[X_i^2 - 2X_i\overline{X} + \overline{X}^2]}\right) \\ &= E\left( \frac{1}{n}\sum_{i=1}^{n} X_i^2 -2\overline{X} \left[ \frac{1}{n}\sum_{i=1}^{n} X_i \right] + \frac{1}{n}\sum_{i=1}^{n} \overline{X}^2\right) \\ &= E\left( \frac{1}{n}\sum_{i=1}^{n} X_i^2 -2\overline{X}^2 + \frac{n}{n} \overline{X}^2\right) \\ &= E\left( \frac{1}{n}\sum_{i=1}^{n} X_i^2  \right) - E( \overline{X}^2) \\ &= \frac{1}{n} \{E(X_1^2) + E(X_2^2) \cdots + E(X_n^2)\} - E( \overline{X}^2) \\ &= \frac{n}{n}E(X^2) - E( \overline{X}^2) \\ &= [ V(X) + \{E(X)\}^2] - [ V(\overline{X}) + \{E(\overline{X})\}^2] \\ &= \sigma^2 + \mu^2 - \left( \frac{\sigma^2}{n} + \mu^2  \right) \\ &= \frac{n-1}{n}\sigma^2  \end{align}$$


$$\color{red}{\therefore E(S^2) = \frac{n-1}{n}\sigma^2}$$


이 결과에 따라 표본분산의 기대값($E(S^2)$)은 모분산($\sigma^2$)의 $(n-1)/n$배에 수렴한다. 다시 말해 표본분산이 모분산 추정에 편향된 결과가 나타나므로 보정이 필요하다. 어떻게? 표본분산에 $n / (n-1)$배를 해준다.


$$\begin{align}  \frac{n}{n-1}S^2 &= \frac{n}{n-1} \cdot \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2 \\ &=  \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \overline{X})^2\end{align}$$



지나가는 말

오랜 만에 $\TeX$ 작업을 했다. 재미는 있는데 정말 시간 오래 걸리고 귀찮다.....


오타가 발견되면 꼭 말씀해주세요~~



사이트 도구로 만들어본 IT4EDU 사이트

블로그 소식을 한 눈에!


http://sites.google.com/view/it4edu



 

 

[ 구독하기 ]







반응형

댓글