본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 11일차 :: 물수능과 불수능 :: 표준화(2) - 척도화 <이토록 쉬운 통계 & R>

by 새봄아빠 2018. 2. 8.

통계학 & R 프로그램 스터디 11일차 

- 물수능과 불수능 :: 표준화(2) - 척도화 <이토록 쉬운 통계 & R>



지난번에는 데이터의 표준화의 첫단계인 중심화 Centering에 대해서 스터디를 했다. (통계학 & R 프로그램 스터디 10일차 :: 물수능과 불수능 :: 표준화(1) - 중심화 <이토록 쉬운 통계 & R>) 오늘은 그에 이어서 척도화 Scaling에 대해 스터디를 진행할 예정이다.


 



오늘은 지난 번과 조금 다른 예를 가지고 왔다. 원래 점수


$$6, 10, 15, 18, 19, 22$$


에 2배를 해서 새로운 변수 $y$를 만들었다.


$$12, 20, 30, 36, 38, 44$$



이전 과정을 복습할 겸 중심화를 해보자. 먼저 평균을 구해보면


$$m = \frac{12 + 20 + 30 + 36 + 38 + 44}{6} = 30$$


30인 것을 알 수 있다. 중심화를 하기 위해 각 점수에서 평균 30을 빼보자.


$$-18, -10, 0, 6, 8, 14$$


중심화를 하고 나면(관측치들을 좌우로 움직이면) 평균은 $0$이 되지만, 관측치들이 평군 $0$을 기준으로 원래 점수의 중심화 점수보다 2배씩 멀리 벌어졌다. (원래 값 $x$의 제일 앞의 관측치는 평균 0에서부터 -9만큼 떨어져 있었으나 변수 $y$는 -18만큼 떨어져있다.)


관측치들이 2배로 멀어졌지만 평균은 여전히 $0$이다. 표준편차는 어떨까?


$$s_y = \sqrt{\frac{(-18)^2 + (-10)^2 + (0)^2 + (6)^2 + (8)^2 + (14)^2}{(6-1)}} = \sqrt{\frac{720}{5}} = 12$$


이 식을 계산해보면 2배 점수의 표준편차 $s_y$는 12가 나온다. 원래 표준편차 $s_x$는 6이었으므로 표준편차도 2배만큼 커졌다. 중심(평균)으로부터 각 관측치들이 2배만큼씩 멀리 떨어지게 되었으니 표준편차도 2배가 커진 것은 자연스러운 일이다. 




(스터디 노트) 고등학교 확률과 통계에서 배우는


$$E(aX + b) = aE(x) + b$$ 

$$\sigma(aX + b) = |a| \sigma(X)$$


식에서 $a=2$, $b=0$인 경우를 생각해보면 된다. 즉


$$E(2X) = 2E(x)$$ 

$$\sigma(2X) = |2|\sigma(X)$$


를 통해 평균과 표준편차가 2배씩 커진 것을 알 수 있다.


 


척도화

척도화 Scaling는 단위에 따른 차이를 고려해서 값들을 상대적인 척도로 바꾼다. 이를 위해 관측치에서 평균을 뺀 값을 표준편차로 나누어준다.


$$\frac{X - m}{\sigma}$$


(이 책의 표기법 대로라면)


$$\frac{x - \overline{x}}{s_x}$$


라고 해야 겠군...


예를 들어, 제일 왼쪽 학생을 기준으로 하면 원래 점수 6점에서 평균 15를 뺀 -9점을 표준편차 6으로 나누면 -1.5가 된다. 원래 점수를 2배로 늘린 12점에서 평균 30을 뺀 -18점을 표준편차 12로 나눠도 -1.5가 된다. 


이것은 이 학생이 평균에서 표준편차의 1.5배만큼 더 낮은 점수를 갖고 있다는 의미이다. 그리고 척도와의 장점은 단위를 없애준다는 점이다. 



이렇게 중심화를 한 이후에 척도화를 하는 과정을 표준화라고 한다.


  • 중심화를 통해 단순히 값이 크다 작다가 아니라 평균에 비해서 얼마나 크고 작은지를 확인한다.
  • 척도화를 통해서 단위 차이를 없앤 숫자를 만들어 낸다.


(중요!!!) 표준화를 거치면 평균은 0이 되고, 표준편차는 1이 된다.

$$Z = \frac{X-m}{\sigma}$$


나중에 정규분포의 표준화에서도 아주 중요하게 다뤄진다!



사이트 도구로 만들어본 IT4EDU 사이트

블로그 소식을 한 눈에!


http://sites.google.com/view/it4edu



 

 




댓글0