본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 10일차 :: 물수능과 불수능 :: 표준화(1) - 중심화 <이토록 쉬운 통계 & R>

by 잇포에듀 2018. 2. 7.
반응형

통계학 & R 프로그램 스터디 10일차 

- 물수능과 불수능 :: 표준화(1) - 중심화 <이토록 쉬운 통계 & R>



매년 11월이 되면 수능 시험이 치러진다. 그때마다 언론을 통해 수능 시험에 대한 평가(?)가 이뤄지며 이번 수능이 "물수능"이었냐? 아니면 "불수능"이었나?가 초미의 관심사가 된다. 난이도 조절을 실패했느냐, 성공했느냐... 변별력을 위한 시험을 만든다는 것 자체가 참으로 안타까운 일이 아닐 수 없다.


 




어쨌든 각 시험 마다 이런 유불리가 나타날 수 밖에 없고, 한 시험에서도 선택과목을 무엇을 선택하느냐에 따라 유불리가 더 크게 나타날 수 밖에 없다. 상대적으로 쉽다고 알려진 시험을 봐서 높은 점수를 받는 것과 어렵다고 알려진 시험을 봐서 그보다는 조금 낮은 점수를 받았을 때, 누가 더 잘 한 것인가를 어떻게 판단할 수 있을까?



<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 48쪽>


예를 들어 위의 표와 같이 홀수년도 수능 수학 점수를 등급 기준별로 점수를 정리했다면 2011년의 90점과 2015년의 90점을 비교했을 때 누가 더 시험을 잘 본것이라고 판단할 수 있을까? 그래서 대안적인 점수 혹은 평가 기준이 필요하다.


첫 번째 대안은 등급이다. 백분위를 활용해서 점수 순서로 나열한 다음 적절한 비율로 잘라 등급을 매기는 방법이다.

또 하나의 대안은 표준점수라는 상대적인 점수를 활용하는 방법이다.


두 방법 모두 완전한 방법은 아니기 때문에 현재 수능 성적표에는 두 가지 정보가 모두 나온다. 아래에는 실제 수능 성적표에 표시된 각 지표에 대한 설명이다.




[주요 용어 설명]


■ 표준점수 : 원점수(정답한 문항에 부여된 배점을 합한 점수)의 분포를 영역 또는 선택과목별로 정해진 평균과 표준편차를 갖도록 변환한 분포상에서 수험생이 획득한 원점수가 어느 위치에 해당하는가를 나타낸 점수.


$$표준점수=20(또는10)\times(\frac{수험생의 원점수 − 수험생이 속한 집단의 원점수 평균}{수험생이 속한 집단의 원점수 표준편차})+100(또는50)$$

   · 국어, 수학, 영어, 직업탐구 영역의 표준점수는 평균 100, 표준편차 20으로 함.

   · 사회/과학탐구 영역과 제2외국어/한문 영역의 표준점수는 과목당 평균 50, 표준편차 10으로 함.

   · 표준점수는 소수 첫째 자리에서 반올림한 정수로 표기함.


■ 백분위 : 수험생이 받은 표준점수보다 낮은 표준점수를 받은 수험생 집단의 비율을 백분율로 나타낸 점수.


   · 백분위는 정수로 표기된 표준점수에 근거하여 산출되며, 소수 첫째 자리에서 반올림한 정수로 표기함.


■ 등급 : 점수로 표기된 표준점수의 분포를 9구간으로 나누어 결정함.


   · 등급 구분 점수에 놓여 있는 동점자에게는 해당되는 등급 중 상위 등급을 부여함.




참고 : 수능 표준점수 계산법, 표준점수의 의미는?




 





표준화

서로 다른 시험에서 얻은 점수를 비교해서 어느 쪽이 상대적으로 더 잘한 것인지 확인할 수 있는 방법은 무엇일까? 이 질문에 대한 대답은 바로 표준화 Standardization 이다.


변수 $x$, 학생 여섯 명의 시험 점수가 


$$6, 10, 15, 18, 19, 22$$


라고 해보자. 이 점수를 가지고 평균과 표준편차를 구하면


$$\overline{x} = \frac{6 + 10 + 15 + 18 + 19 + 22}{6} = 15$$


$$s_x = \sqrt{\frac{(-9)^2 + (-5)^2 + (0)^2 + (3)^2 + (4)^2 + (7)^2}{(6-1)}} = \sqrt{\frac{180}{5}} = 6$$


평균은 15이고 표준편차는 6이다.


평균 점수가 생각보다 낮아서 선생님이 기본 점수를 $10$점씩 줬다고 가정해보자. 그러면 점수 분포는 아래와 같이 변한다.


$$16, 20, 25, 28, 29, 32$$


각 점수 간의 간격은 그대로인데 모두 10만큼 커졌다. 그래서 평균은 15보다 10 커진 25가 되고, 표준편차는 그대로 6이다.





(스터디 노트) 고등학교 확률과 통계에서 배우는


$$E(aX + b) = aE(x) + b$$ 

$$\sigma(aX + b) = |a| \sigma(X)$$


식에서 $a=1$인 경우를 생각해보면 된다. 즉


$$E(X + b) = E(x) + b$$ 

$$\sigma(X + b) = \sigma(X)$$


를 통해 평균은 $b$만큼 증가했지만 표준편차는 변함이 없음을 알 수 있다.



그렇다면 본래 점수와 기본 점수를 추가한 점수 사이에 상대적인 차이가 없다는 것을 어떻게 나타낼 수 있을까? 간단하게 각 점수에서 평균을 빼면 된다. 이렇게 말이다.


$$-9, -5, 0, 3, 6, 7$$


어떤 변수든지 원래 값에서 평균을 뺀 새로운 변수를 만들고 그 평균을 구하면 정확히 $0$이 나온다. 


이렇게 각 관측치에서 평균을 빼는 과정을 중심화 Centering 라고 한다. 


중심화를 하면 똑같은 점수라 해도 어느 쪽이 상대적으로 평균보다 큰 값인지, 작은 값인지를 확인할 수 있다.




(스터디 노트) 이 과정은 $X - m$을 구하는 것이라고 할 수 있다. 모든 변수에서 평균값 $m$을 뺏으므로 관측치가 평균값과 동일 한 경우에는 $0$이 되고, 평균보다 작은 값은 음수, 평균보다 큰 값은 양수 값이 나온다. 그리고 이 값을 편차 deviation 라고 한다.


평균의 정의에 의해 모든 편차의 합은 $0$이 된다. 관측값들이 평균을 부터 얼마나 떨어졌는지를 분석하기 위해 각 편차들의 분포를 평균을 내어 보려 해도 편차의 합을 구하면 $0$이 되기 때문에 편차의 평균을 구할 수가 없다. 그래서 제곱을 해서 평균을 구하는데 그것을 분산 variation 이라고 한다.



사이트 도구로 만들어본 IT4EDU 사이트

블로그 소식을 한 눈에!


http://sites.google.com/view/it4edu



 

 




반응형

댓글