본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 7일차 - 더치페이와 N빵(1) :: 평균, 분산, 표준편차 <이토록 쉬운 통계 & R>

by 잇포에듀 2018. 2. 3.
반응형

통계학 & R 프로그램 스터디 7일차 

- 더치페이와 N빵(1) :: 평균, 분산, 표준편차 <이토록 쉬운 통계 & R>




드디어! 통계의 기본 중에 기본인 평균, 분산, 표준편차에 대한 이야기가 시작된다. 평균, 분산, 표준편차에 대한 기본 개념과 정의에 대해서 간략하게 정리해보자.


 




평균

어떤 변수의 합계가 고정되어 있을 때, 모든 관측치가 똑같이 나눠 가질 수 있는 값을 평균 Mean 이라고 한다.


변수 $x$의 평균은 모든 관측치의 값을 다 더한 다음 관측치의 개수 $n$으로 나눠 계산한다.


$$\overline{x} = \frac{\sum_{i = 1}^{n}x_i}{n} = \frac{1}{n}\sum_{i=1}^{n}x_i$$




분산

분산 Variance은 평균에서 떨어져 있는 거리를 숫자로 계산하기 위한 여러 가지 시도들 중에 하나이다.


$$s_x^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \overline{x})^2$$



분산을 구하는 4단계

  • 1단계 $(x_i - \overline{x})$ : 각각의 관측치에서 평균을 뺀다. 즉, 평균으로부터 얼마나 차이가 나는지(편차)를 계산한다.
  • 2단계 $(x_i - \overline{x})^2$ : 1단계에서 계산한 값(편차)들을 제곱한다. 이로써 모든 값이 양수(+)가 된다.
  • 3단계 $\sum_{i=1}^{n}(x_i - \overline{x})^2$ : 2단계에서 구한 값들을 모두 더한다.
  • 4단계계 $\frac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x})^2$ : 3단계에서 구한 합계를 $n-1$로 나눈다.


분산은 관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지를 계산한다. 분산이 0에 가깝다면 관측치들이 대부분 평균 근처에 몰려있다는 것을 의미하고, 분산이 커질수록 평균에서 멀리 떨어져 있다는 것을 의미한다.


계산을 할 때 제곱 말고 절댓값을 쓸 수도 있다. 이론적으로는 '미분이 가능한' 분산을 더 선호하기 때문에 제곱하는 방식을 주로 사용한다.


 



표준편차

분산을 통해서 관칙치들이 평균으로 부터 평균적으로 어느 정도 떨어져 분포되어 있는 지 알 수 있지만 뭔가 아쉬운 점이 있다. 그것은 바로 단위의 문제.


예를 들어 관측치의 기본 단위가 원(₩)이라면 평균의 단위도 원(₩)이다. 그런데 분산은 어떠한가? 편차의 제곱에 대한 평균치를 계산한 것이기 때문에 단위가 원(₩)이 아니라 원(₩)의 제곱(?)이라는 이상한 단위가 만들어진다. 


이 단위를 원래의 단위로 맞춰주기 위해 제곱근을 사용하는데 이 값을 표준편차 Standard Deviation 라고 한다.


$$s_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \overline{x})^2}$$


개념을 제대로 이해하면 표준편차라는 단어가 더욱 직관적으로 느껴진다.





책에는 안 나온 내용 (개인 스터디)

  • 이 책에서 다루고 있는 평균 $\overline{x}$, 분산 $s_x^2$, 표준편차 $s_x$는 모집단(전체 데이터)에 대한 것이 아니라 표본집단(임의로 추출된 데이터)에 대한 값들을 의미한다. 보통 모집단에 대한 모평균은 $m$ 또는 $\mu$로, 모분산은 $\sigma^2$으로, 모표준편차는 $\sigma$로 표현해서 구분한다.
  • 그러다보니 분산을 계산하는 것이 중고등학생 때 배우는 분산과 식이 조금 다르다. 바로 편차의 제곱의 합을 $n$이 아닌 $n-1$로 나누는 문제이다. 책에서는 "깐깐한 통계학자들이 $n$이 아니라 $n-1$로 나누는 게 더 좋다는 것을 밝혀버려서"라고 표현을 하고 있다. 정리하자면 책에서 다루고 있는 분산은 모분산이 아니라 표본분산이기 때문에 $n$이 아니라 $n-1$로 나눈다. (학창시절에는 샘플이 몇개 되지 않는 상황에서 모든 값들을 가지고 계산을 했으므로 이미 모분산을 계산했던 것이다.) 이 둘의 차이에 대해서는 고등학교 확률과 통계 교과서에도 간단히 소개되어 있다. ("표본분산은 모분산과 달리 편차의 제곱의 합을 n-1로 나눈 것으로 정의하는데, 이것은 모분산과의 오차를 줄이기 위한 것이다."라고...)
  • 이에 대해서는 고등학생 수준의 수학으로 증명은 가능한데, 그냥 보았을 때엔 상당히 복잡해 보인다. (기회가 되면 이 내용도 정리를 해보면 좋겠다....?)



사이트 도구로 만들어본 IT4EDU 사이트

블로그 소식을 한 눈에!


http://sites.google.com/view/it4edu



 

 




반응형

댓글